ИИ-инференс (AI Inference) — процесс применения обученной модели машинного обучения к новым данным для получения прогнозов, классификации или генерации контента. В отличие от ресурсоемкого обучения, инференс оптимизирован под скорость и стабильную работу в реальном времени.
Ключевые возможности
Услуга «ИИ-инференс» в Рег.облаке — это предустановленный образ виртуальной машины с Docker-контейнерами vLLM для запуска больших языковых моделей (LLM) на выделенных GPU-серверах.
Как запустить инференс в облаке
-
1
Войдите в панель управления Рег.облака.
-
2
Нажмите +Новый ресурс > Cервер.
-
3
Перейдите во вкладку GPU.
-
4
Выберите образ ИИ-инференса (vLLM).
-
5
Выберите необходимую ИИ-модель.
-
6
Выберите vGPU-конфигурацию и тип диска. Затем выберите подходящий тариф.
-
7
Выберите регион размещения сервера.
-
8
Закажите публичный плавающий IP-адрес.
-
9
Выберите тариф защиты от DDoS-атак.
-
10
Настройте автоматическое резервное копирование.
-
11
При необходимости добавьте SSH-ключ и укажите название сервера.
-
12
Нажмите кнопку Заказать сервер.
После создания сервера vLLM запускается автоматически (для образов с моделями). Endpoint и API-ключ приходят на электронную почту. Готовый сервер принимает запросы в формате OpenAI API.
Пример запроса:
curl http://<ваш_endpoint>/v1/chat/completions \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <ваш_api_ключ>" \
-d '{
"model": "Qwen/Qwen2.5-7B-Instruct",
"messages": [{"role": "user", "content": "Расскажи о vLLM"}]
}'
Где:
<ваш_endpoint> — адрес сервера из письма (например, 185.182.110.126:8000);
<ваш_api_ключ> — статичный ключ, сгенерированный при создании сервера;
model — название модели (для предустановленных образов совпадает с именем на Hugging Face);
messages — массив сообщений, где «role» задает роль отправителя (user, system, assistant), а «content» — текст сообщения.
Если модели нет в каталоге — выберите базовый образ vLLM без модели и загрузите свою через Docker-контейнер.
Когда нужен собственный инференс
Использование выделенного инференса на своей ВМ оптимально в случаях:
приватности данных. Модель и запросы обрабатываются локально, без передачи третьим лицам;
полного контроля. Полный доступ к серверу, возможность настройки vLLM, смены версий, установки дополнительного ПО;
BYOM (Bring Your Own Model). Запуск кастомных, дообученных или проприетарных моделей без ограничений платформы;
предсказуемой производительности. Выделенный GPU гарантирует стабильную скорость независимо от нагрузки других клиентов;
расширенных сценариев. Доступ ко всем адресам сервиса vLLM: Embeddings API, Tokenizer API, классификации, работе с аудио.
Была ли статья полезна?
Спасибо за оценку. Рады помочь 😊