Купить Корзина
  • Облако и IT-инфраструктура
  • Домены и сайты
  • Вход
Получить консультацию

Ответим на вопросы, расскажем о конфигурациях, поможем с переносом, подберем оборудование, подготовим коммерческое предложение

Нажимая кнопку «Отправить» я даю согласие на обработку персональных данных и подтверждаю, что ознакомился с Политикой конфиденциальности

Персональный менеджер ответит на ваши вопросы и проведет через все этапы заключения договора: — подберет оборудование — сформирует коммерческое предложение — поможет с миграцией сервера к нам

Нажимая кнопку «Отправить» я даю согласие на обработку персональных данных и подтверждаю, что ознакомился с Политикой конфиденциальности

Или просто оставьте номер телефона, и мы перезвоним вам

Получить консультацию

Ответим на вопросы, расскажем о конфигурациях, поможем с переносом, подберем оборудование, подготовим коммерческое предложение

Нажимая кнопку «Отправить» я даю согласие на обработку персональных данных и подтверждаю, что ознакомился с Политикой конфиденциальности

Персональный менеджер ответит на ваши вопросы и проведет через все этапы заключения договора: — подберет оборудование — сформирует коммерческое предложение — поможет с миграцией сервера к нам

Нажимая кнопку «Отправить» я даю согласие на обработку персональных данных и подтверждаю, что ознакомился с Политикой конфиденциальности

Или просто оставьте номер телефона, и мы перезвоним вам

ИИ‑инференс в облаке

Быстрый запуск и масштабирование языковых моделей. Готовая инфраструктура для работы больших языковых моделей на выделенных GPU с полным контролем, приватностью и предсказуемой производительностью

Запустить vLLM
ИИ‑инференс в облаке

Что такое ИИ‑инференс в облаке

ИИ-инференс в облаке — это готовая облачная среда на базе vLLM для запуска и работы языковых моделей на выделенных GPU без сложной настройки инфраструктуры.

Всё необходимое уже подготовлено: оптимизированное окружение, механизм выполнения моделей и доступ к программному интерфейсу (API) для интеграции. Вы получаете полный контроль над сервером, моделями и данными при стабильной и предсказуемой производительности

Запускайте и используйте модели без лишних сложностей

  • Быстрый запуск без настройки инфраструктуры

    Запустите готовую виртуальную машину с GPU, предустановленным vLLM и моделью без ручной настройки окружения. Не нужно устанавливать CUDA, драйверы и зависимости. Сервер готов к работе сразу после создания

  • Готовый инференс API сразу после запуска

    Получите адрес сервиса (endpoint) и API-ключ сразу на сервере с предустановленной моделью и мгновенно интегрируйте модель через OpenAI-совместимый программный интерфейс (API). На базовом образе адрес сервиса (endpoint) доступен сразу, а API-ключ добавляется после загрузки вашей модели

  • Приватный инференс на выделенном GPU

    Работайте с языковыми моделями в полностью изолированной виртуальной машине с с выделенным GPU. Все вычисления выполняются только в пределах вашего сервера

  • Любые модели без ограничений платформы

    Используйте предустановленные модели для быстрого старта или загружайте собственные через Hugging Face CLI. Вы можете запускать любые модели, которые помещаются в видеопамять выбранной GPU-конфигурации

  • Предсказуемая производительность

    Получите стабильную производительность, которая определяется только выбранной GPU-конфигурацией. Все ресурсы закреплены за вами и не делятся с другими пользователями

  • Полный контроль и защита данных

    Управляйте сервером как классической инфраструктурой: полный доступ к системе (включая протокол SSH), настройка моделей и окружения без ограничений. Используйте резервное копирование и моментальные снимки сервера (снэпшоты), чтобы сохранять состояние и быстро восстанавливать сервер без потери данных

Сценарии использования

  • Работа моделей с вашими данными

    Подключайте языковые модели к внутренним источникам: документам, базе знаний и объектному хранилищу S3. Стройте поиск по внутренней информации, получайте ответы на основе собственных данных и создавайте корпоративных помощников для сотрудников и клиентов

  • Автоматизация бизнес-процессов

    Интегрируйте большие языковые модели (LLM) в бизнес-процессы: обработку заявок, автоответы, классификацию потенциальных клиентов, генерацию задач. Используйте n8n для оркестрации сценариев и интеграции с системой управления взаимоотношениями с клиентами (CRM), почтой и программным интерфейсом (API)

  • ИИ‑ассистенты и чат‑боты

    Разворачивайте большие языковые модели (LLM) для обработки пользовательских запросов, создания чат-ботов и внутренних ассистентов. Используйте готовый программный интерфейс (API) vLLM для интеграции в веб-сервисы и приложения

  • Генерация и анализ кода

    Используйте языковые модели для автодополнения, генерации и анализа кода, включая проекты на языке Python, а также для поиска ошибок и улучшения качества решений. Создавайте внутренние инструменты разработчика и ассистентов, которые ускоряют разработку и упрощают работу команды

  • Обработка и анализ текста

    Упростите работу с текстом за счет классификации, извлечения данных, подготовки ответов и документов. Модели помогут анализировать обращения, находить ключевые факты, делать краткие сводки и формировать содержательные ответы, снижая нагрузку на команду и ускоряя обработку информации

  • Мультимодальные сценарии

    Работайте не только с текстом, но и с изображениями, аудио и документами — от распознавания и извлечения данных до генерации нового контента. Используйте модели для комплексной обработки информации из разных источников в рамках единого процесса

  • Прототипирование и тестирование LLM

    Быстро проверяйте гипотезы, тестируйте разные модели, включая популярные решения с открытым исходным кодом (open-source), и находите оптимальные конфигурации. Сравнивайте результаты, подбирайте оптимальные параметры и находите лучшие решения без сложной подготовки инфраструктуры

Начните работу с языковыми моделями уже сейчас

  • 1 Авторизуйтесь на сайте Рег.облака

    Создайте новый аккаунт или войдите в существующий

  • 2 Выберите ИИ-инференс, подходящую модель и запустите сервер

    Выберите ИИ-инференс и запустите виртуальную машину с GPU. На этапе создания сервера выберите, как вы хотите работать: использовать предустановленную модель для быстрого старта или запустить сервер без модели и загрузить свою. Сервер будет готов к работе сразу после создания

  • 3 Получите доступ и начните работу

    Запустите ИИ-инференс и получите адрес сервиса с ключом доступа к программному интерфейсу (API). Для готовых образов доступ появляется сразу, для базового образа с vLLM — после загрузки модели

Закажите сервер для LLM в облаке

Образы

Операционные системы
Приложения и панели управления
GPU
Ispmanager 6
Ubuntu 20.04 LTS
  • AlmaLinux 8
  • Ubuntu 20.04 LTS
  • Ubuntu 22.04 LTS
BitrixVM
CentOS Stream 9
FASTPANEL®
Ubuntu 20.04 LTS
  • Debian 10
  • Ubuntu 20.04 LTS
Django
Ubuntu 20.04 LTS
Docker
Ubuntu 24.04 LTS
  • Ubuntu 20.04 LTS
  • Ubuntu 22.04 LTS
  • Ubuntu 24.04 LTS
LAMP
Ubuntu 20.04 LTS
LEMP
Ubuntu 20.04 LTS
Nextcloud
Ubuntu 20.04 LTS
Node.js
Ubuntu 20.04 LTS
WireGuard
Ubuntu 20.04 LTS
GitLab
Ubuntu 24.04 LTS
GitLab Runner
Ubuntu 24.04 LTS
OpenVPN
Ubuntu 24.04 LTS
Zabbix
Ubuntu 24.04 LTS
Приложение недоступно

Сейчас мы изучаем спрос на это приложение: напишите нам на team@reg.cloud и вы узнаете в числе первых, когда его можно будет установить.

Если заявок наберется достаточно, то образ обязательно будет добавлен в автоустановщик

Сделаем Облачные VPS еще лучше вместе!

Тарифы и конфигурации

Тарифный план
Своя конфигурация
vCPU и тип диска
Стандартный 2,2 ГГц + SSD
Производительный 2,8 ГГц + NVMe до 25% мощнее
Высокочастотный 3,7 ГГц+ NVMe до 40% производительнее
Производительный с GPU 2,8 ГГц + NVMe + GPU
Тариф
Std C1-M1-D10
390 ₽/мес 0,58 ₽/час
1 ядро vCPU 1 ГБ RAM10 ГБ SSD
Std C2-M2-D40
980 ₽/мес 1,46 ₽/час
2 ядра vCPU 2 ГБ RAM 40 ГБ SSD
Std C3-M3-D60
1 470 ₽/мес 2,19 ₽/час
3 ядра vCPU 3 ГБ RAM 60 ГБ SSD
Std C4-M4-D80
1 960 ₽/мес 2,92 ₽/час
4 ядра vCPU 4 ГБ RAM 80 ГБ SSD
Std C6-M6-D100
2 740 ₽/мес 4,08 ₽/час
6 ядер vCPU 6 ГБ RAM 100 ГБ SSD
Std C8-M8-D120
3 520 ₽/мес 5,24 ₽/час
8 ядер vCPU 8 ГБ RAM 120 ГБ SSD
Std C12-M12-D160
5 080 ₽/мес 7,56 ₽/час
12 ядер vCPU 12 ГБ RAM 160 ГБ SSD
Std C16-M16-D240
7 040 ₽/мес 10,48 ₽/час
16 ядер vCPU 16 ГБ RAM 240 ГБ SSD
High C1-M2-D20
970 ₽/мес 1,44 ₽/час
1 ядро vCPU 2 ГБ RAM 20 ГБ NVMe
High C2-M4-D60
2 180 ₽/мес 3,24 ₽/час
2 ядра vCPU 4 ГБ RAM 60 ГБ NVMe
High C4-M8-D80
3 880 ₽/мес 5,77 ₽/час
4 ядра vCPU 8 ГБ RAM 80 ГБ NVMe
High C4-M8-D120
4 360 ₽/мес 6,49 ₽/час
4 ядра vCPU 8 ГБ RAM 120 ГБ NVMe
High C8-M16-D120
7 280 ₽/мес 10,83 ₽/час
8 ядер vCPU 16 ГБ RAM 120 ГБ NVMe
High C8-M16-D180
8 000 ₽/мес 11,91 ₽/час
8 ядер vCPU 16 ГБ RAM 180 ГБ NVMe
High C12-M24-D240
11 640 ₽/мес 17,32 ₽/час
12 ядер vCPU 24 ГБ RAM 240 ГБ NVMe
High C12-M32-D320
15.600 ₽/мес 20,89 ₽/час
12 ядер vCPU 32 ГБ RAM 320 ГБ NVMe

Регион размещения

Москва
Санкт-Петербург
Самара

Конфигурация

  • Регион Санкт-Петербург
  • Операционная система Ubuntu 24.04 LTS
  • Приложение GitLab
  • Помесячная оплата
  • Тариф HP C4-M4-D80
    3,57 ₽/час
    до 2 400 ₽/мес
  • Итого:
    3,57 ₽/час
    Минимальный платёж для почасовой оплаты — 100 ₽, но не менее стоимости 1 часа по выбранному тарифу.
    Заказать сервер

    Поддерживаемые модели

    Выберите готовую модель для запуска ИИ-инференса и начните работать с конкретными задачами без дополнительной настройки

    • Qwen2.5-3B-Instruct

      Для генерации текста

      Рекомендуемое оборудование:

      • NVIDIA 1×A4000 16 ГБ
      • 8 ядер vCPU · 32 ГБ RAM · 128 ГБ NVMe

      Легкая инструктивная модель для быстрого старта, демонстрации и тестирования. Подходит для базовых текстовых задач, чат-ботов и внутренних ассистентов

    • Qwen2.5-7B-Instruct

      Для генерации текста

      Рекомендуемое оборудование:

      • NVIDIA 1×A4000 16 ГБ
      • 16 ядер vCPU · 64 ГБ RAM · 256 ГБ NVMe

      Универсальная инструктивная модель с отличным балансом качества и производительности. Подходит для более сложных текстовых ассистентов и генерации контента

    • Qwen3-VL-8B-Instruct

      Мультимодальная модель (для текста и изображений)

      Рекомендуемое оборудование:

      • NVIDIA 1×A5000 24 ГБ
      • 16 ядер vCPU · 64 ГБ RAM · 256 ГБ NVMe

      Мультимодальная модель для работы с текстом и изображениями. Подходит для визуального анализа, генерации мультимедийного контента и сложных ассистентов

    • DeepSeek-Coder-V2-Lite-Instruct

      Для генерации кода

      Рекомендуемое оборудование:

      • NVIDIA 1×A5000 24 ГБ
      • 16 ядер vCPU · 64 ГБ RAM · 256 ГБ NVMe

      Инструктивная модель для генерации и анализа кода, поддерживает проверку кода и разработку ассистентов для программирования

    • DeepSeek-R1-Distill-Llama-70B

      Для генерации текста

      Рекомендуемое оборудование:

      • NVIDIA 2×A100 80 ГБ
      • 64 ядра vCPU · 512 ГБ RAM · 2048 ГБ NVMe

      Флагманская модель для аналитических задач и сложных ассистентов. Идеально подходит для корпоративных сервисов и задач с высокими требованиями к качеству ответов

    • Предложить модель для каталога

      Также вы можете развернуть собственную модель с полной свободой конфигурации внутри виртуальной машины

    Готовая платформа для запуска и управления vLLM

    • GPU-сервер с почасовой оплатой
    • Публичный плавающий IP-адрес
    • Управление версиями vLLM и моделей
    • Доступ по протоколу SSH
    • OpenAI-совместимый адрес сервиса (endpoint) и API-ключ генерируются автоматически при создании сервера
    • Выбор модели при создании сервера или загрузка собственной через Hugging Face CLI
    • Выделенный GPU
    • Настройка пайплайнов и интеграций
    • Поддержка резервного копирования и моментальных снимков сервера (снэпшотов), восстановление сервера из резервной копии

    Почему стоит выбрать Рег.облако

    • Надежный поставщик услуг

      С 2006 года мы развивались в составе Рег.ру, накопили большой опыт и экспертные знания в сфере IT

    • Безопасные дата‑центры

      Наши дата-центры соответствуют требованиям безопасности Tier III и находятся на территории России: в Москве, Санкт-Петербурге и Самаре

    • Индиви­дуаль­ный подход

      Персональный менеджер поможет выбрать решение, сформирует коммерческое предложение и будет сопровождать вас на всех этапах реализации проекта

    • Современное оборудование

      Cледим за тенденциями и регулярно обновляем комплектующие

    Другие ИИ-решения от Рег.облака

    • ИИ и машинное обучение

      Решения для обучения моделей и решения бизнес-задач с помощью нейросетей в облаке

    • ИИ-ассистент

      Локальное решение для запуска и управления языковыми моделями

    • JupyterHub

      Веб-платформа для интерактивных вычислений и работы с данными в Jupyter Notebook

    • Облачные серверы с GPU

      Виртуальные серверы с графическими ускорителями NVIDIA А4000, А5000 и А100

    Узнайте больше о возможностях vLLM

    Подробные инструкции, примеры и сценарии использования — всё для быстрого старта и эффективной работы

    Частые вопросы

    • Как быстро я смогу запустить ИИ-инференс?

      Развертывание ИИ-инференса занимает минимум времени: вы выбираете образ, создаете сервер, и система автоматически запускается. Это готовое решение, где всё уже настроено, поэтому сервис начинает работать сразу — адрес сервиса (endpoint) и API-ключ генерируются автоматически, а доступы к серверу приходят в письме.
    • Могу ли я подключить свои данные к модели?

      Да, облачный ИИ-инференс позволяет подключать ваши документы, базы знаний и файлы. Нейросеть использует их для поиска информации и формирования ответов, что особенно удобно для внутренних сервисов и работы с корпоративными данными.
    • Могу ли я использовать свои модели?

      Да, вы можете загружать свои модели разными способами: указать репозиторий Hugging Face напрямую для загрузки через vLLM, предварительно скачать модель через Hugging Face CLI или Hugging Face Hub либо загрузить файлы модели на сервер вручную и передать vLLM локальный путь к ним. vLLM умеет работать как с Hugging Face ID, так и с локальным путем к модели. Важно убедиться​​, что выбранная модель помещается в видеопамять вашего GPU.
    • Где хранятся модели и данные?

      Модели и данные можно хранить локально на сервере или в объектном хранилище S3. Это решение помогает контролировать инфраструктуру и снижать уровень затрат при работе с большими объемами информации.
    • Можно ли автоматизировать работу с LLM?

      Да, вы можете интегрировать ИИ-инференс с инструментами автоматизации, например n8n. LLM-платформа легко встраивается в автоматизацию, позволяя обрабатывать данные, строить сценарии и ускорять выполнение задач в рамках одного проекта.
    • Как обеспечивается приватность данных и моделей?

      Данные модели хранятся в вашей виртуальной машине на инфраструктуре платформы, при этом они изолированы на уровне виртуализации. Платформа не имеет доступа к содержимому и не передает его третьим сторонам.
    • Какие GPU-конфигурации доступны?

      Доступны разные конфигурации для задач машинного обучения (ML Inference) — от базовых до высокопроизводительных. Ресурсы уже оптимизированы, что обеспечивает высокую скорость и стабильность обработки.

      Доступны видеокарты:
      • NVIDIA A4000 (16 ГБ),
      • NVIDIA A5000 (24 ГБ),
      • NVIDIA A100 (80 ГБ).

      Конфигурации включают:
      • 1-2 ядра GPU,
      • 8-64 ядра vCPU,
      • 32-512 ГБ ОЗУ,
      • 128 ГБ – 1 ТБ NVMe.
    • Как я могу интегрировать модель в свои приложения?

      После запуска вы получаете готовый API, через который модель работает так же, как привычные сервисы. Это дает ускорение разработки и сокращает время интеграции в ваши системы.
    • Как тарифицируется использование?

      Оплата почасовая и зависит от выбранной GPU-конфигурации. Такой подход помогает гибко управлять ресурсами и контролировать расходы.
    • Как я могу интегрировать модель в свои приложения?

      ИИ-инференс автоматически разворачивает OpenAI-совместимый API (адрес сервиса + API-ключ). Это позволяет интегрировать модель в приложение так же, как OpenAI — через пакет средств разработки ПО (SDK), HTTP-запросы или популярные фреймворки (например, LangChain).
    • Что делать, если сервер нужно восстановить или переустановить?

      Вы можете создавать моментальные снимки сервера (снэпшоты) и резервные копии, восстанавливать сервер из них, а также переустановить сервер на другую модель, vLLM-образ или чистую ОС.
    • Есть ли ограничения на использование сервера?

      Сервис доступен только на GPU-тарифах. Сервер обязательно создается с публичным плавающим IP-адресом, который нельзя отключить. Масштабирование и отказоустойчивость находятся в зоне ответственности клиента, тогда как инфраструктура (серверы, сеть и физическое оборудование) обеспечивается и защищается платформой. Установка моделей, настройка окружения и администрирование сервера выполняются пользователем. При этом ресурсы ограничены выбранной GPU-конфигурацией, поэтому рекомендуется заранее учитывать требования моделей к vCPU и объему оперативной памяти. Несмотря на эти ограничения, инференс LLM в облаке остается полностью под вашим контролем: платформа не накладывает ограничений на тип задач, используемые модели и сценарии применения.

    Начните работу с моделями уже сейчас

    Запустите ИИ-инференс и получите доступ к предустановленным моделям за несколько минут — без настройки и сложной подготовки

    • Запустить ИИ-инференс
    Рассылка Рег.облака

    Лайфхаки, скидки и новости об IT

    Даю согласие на получение рекламных и информационных материалов

    1. Главная
    2. Приложения ☁
    3. vLLM-сервер ☁
    Продукты и сервисы
    • Облачные серверы
    • Выделенные серверы
    • Базы данных
    • S3 хранилище
    • Кластеры Kubernetes
    • Cloud GPU
    • VPS
    Решения
    • Интернет-магазин в облаке
    • Разработка и тестирование в облаке
    • Удаленный рабочий стол
    • Работа с 1С
    • Корпоративное хранение данных
    • Искусственный интеллект и машинное обучение в облаке
    • Конфигуратор сервера
    • Администрирование серверов
    Техподдержка
    • Создать тикет
    • Документация
    Прочее
    • О компании
    • Партнерская программа
    • Гранты
    • Блог
    • Контакты
    • Отзывы клиентов
    • © ООО «РЕГ.РУ» Нашли опечатку?
      Выделите и нажмите Ctrl+Enter
    • Облачная платформа Рег.ру включена в реестр российского ПО Запись №23682 от 29.08.2024
      • Политика конфиденциальности
      • Политика обработки персональных данных
      • Правила применения рекомендательных технологий
    • 8 800 333-92-23

      Бесплатный звонок по России

      +7 (495) 009‑92‑22

      Телефон в Москве

      • max
      • vk
      • telegram
      • vkvideo
      • vcru
      • moikrug
      • rbc
    • Мы используем cookie и рекомендательные технологии для персонализации сервисов и удобства пользователей. Вы можете запретить сохранение cookie в настройках своего браузера