Ответим на вопросы, расскажем о конфигурациях, поможем с переносом, подберем оборудование, подготовим коммерческое предложение

Сообщение
Вопрос, описание проекта, требования

Имя

Электронная почта

Контактный телефон

Нажимая кнопку «Отправить» я даю согласие на обработку персональных данных и подтверждаю, что ознакомился с Политикой конфиденциальности

Персональный менеджер ответит на ваши вопросы и проведет через все этапы заключения договора: — подберет оборудование — сформирует коммерческое предложение — поможет с миграцией сервера к нам

Сообщение
Вопрос, описание проекта, требования

Планируемый бюджет

Название компании

ИНН компании

Имя

Электронная почта

Контактный телефон

Телефон в Москве
+7 495 580-11-11
Бесплатный звонок по России
8 800 555-34-78
Или обратитесь в наши офисы
Региональные номера

Что такое ИИ-инференс и как запускать LLM в облаке

ИИ-инференс (AI Inference) — процесс применения обученной модели машинного обучения к новым данным для получения прогнозов, классификации или генерации контента. В отличие от ресурсоемкого обучения, инференс оптимизирован под скорость и стабильную работу в реальном времени.

Ключевые возможности

Услуга «ИИ-инференс» в Рег.облаке — это предустановленный образ виртуальной машины с Docker-контейнерами vLLM для запуска больших языковых моделей (LLM) на выделенных GPU-серверах.

Параметр

Значение

Базовое ПО

vLLM (оптимизированный движок инференса), NVIDIA CUDA, драйверы GPU

Доступные модели

5 предустановленных (Qwen2.5, Gemma 4, DeepSeek Coder) + возможность загрузки собственных

API

OpenAI-совместимое (Chat, Completions, Embeddings)

Безопасность

Статичный API-ключ, выделенный сервер без мультиарендности

Управление

Root-доступ, переустановка образа, моментальные снимки сервера (снэпшоты) и резервное копирование

Как запустить инференс в облаке

1

Войдите в панель управления Рег.облака.
2

Нажмите +Новый ресурс > Cервер.
3

Перейдите во вкладку GPU.
4

Выберите образ ИИ-инференса (vLLM).
5

Выберите необходимую ИИ-модель.
6

Выберите vGPU-конфигурацию и тип диска. Затем выберите подходящий тариф.
7

Выберите регион размещения сервера.
8

Закажите публичный плавающий IP-адрес.
9

Выберите тариф защиты от DDoS-атак.
10

Настройте автоматическое резервное копирование.
11

При необходимости добавьте SSH-ключ и укажите название сервера.
12

Нажмите кнопку Заказать сервер.

После создания сервера vLLM запускается автоматически (для образов с моделями). Endpoint и API-ключ приходят на электронную почту. Готовый сервер принимает запросы в формате OpenAI API.

Пример запроса:

curl http://<ваш_endpoint>/v1/chat/completions \
  -H "Content-Type: application/json" \
  -H "Authorization: Bearer <ваш_api_ключ>" \
  -d '{
    "model": "Qwen/Qwen2.5-7B-Instruct",
    "messages": [{"role": "user", "content": "Расскажи о vLLM"}]
  }'

Где:

<ваш_endpoint> — адрес сервера из письма (например, 185.182.110.126:8000);
<ваш_api_ключ> — статичный ключ, сгенерированный при создании сервера;
model — название модели (для предустановленных образов совпадает с именем на Hugging Face);
messages — массив сообщений, где «role» задает роль отправителя (user, system, assistant), а «content» — текст сообщения.

Если модели нет в каталоге — выберите базовый образ vLLM без модели и загрузите свою через Docker-контейнер.

Когда нужен собственный инференс

Использование выделенного инференса на своей ВМ оптимально в случаях:

приватности данных. Модель и запросы обрабатываются локально, без передачи третьим лицам;
полного контроля. Полный доступ к серверу, возможность настройки vLLM, смены версий, установки дополнительного ПО;
BYOM (Bring Your Own Model). Запуск кастомных, дообученных или проприетарных моделей без ограничений платформы;
предсказуемой производительности. Выделенный GPU гарантирует стабильную скорость независимо от нагрузки других клиентов;
расширенных сценариев. Доступ ко всем адресам сервиса vLLM: Embeddings API, Tokenizer API, классификации, работе с аудио.

Была ли статья полезна?

Спасибо за оценку. Рады помочь 😊

👍

Специальные предложения

Что-то пошло не так

Ваша заявка принята!

Что-то пошло не так

Ваша заявка принята!

Что-то пошло не так

Ваша заявка принята!

Что такое ИИ-инференс и как запускать LLM в облаке

Ключевые возможности

Как запустить инференс в облаке

Когда нужен собственный инференс

Была ли статья полезна?