Быть в курсе
Назад к списку статей

Как развернуть ИТ-инфраструктуру для ML-задач: опыт РБК

Рассказываем, как мы помогли команде РБК автоматизировать процесс тегирования материалов редакции с помощью нейросети на облачных серверах Рег.ру с GPU.

О клиенте

РБК — один из крупнейших медиахолдингов России. Ежедневно в РБК выходят сотни материалов, которые требуют тегирования. Тегирование помогает систематизировать публикации и новости, более точно настраивать рекомендательные алгоритмы. Каждый материал редакторы РБК размечали вручную, подбирая из множества тегов 2-3 подходящих. Из-за этого возникло несколько трудностей.

Нейросеть для тегирования нивелировала бы человеческий фактор и освободила время редакторов для решения более творческих задач.

Вызовы и задачи

→ Развернуть отказоустойчивую инфраструктуру для работы с AI и проверки гипотез.

→ Провести эксперименты с разными языковыми моделями.

→ Протестировать возможности разных GPU для решения задачи по тегированию.

В целях экономии первичное обучение ИИ-модели специалисты РБК провели на on-premise инфраструктуре. За основу выбрали Open Source решение — архитектура T5. Обучение на локальном сервере заняло восемь дней непрерывной работы. Чтобы сократить время и повысить производительность, процесс дообучения решили провести в облаке.

Решение

В конце октября 2024 году команда Рег.ру запустила сервис «Облачные серверы с GPU», ранее графические процессоры были доступны для заказа только на выделенных серверах. Разработка готового решения заняла три месяца. Инфраструктура для ML-модели РБК — первый проект, который протестировали на облачном решении Рег.ру с GPU.

Для решения задач РБК специалисты Рег.ру подготовили тестовый стенд с GPU NVIDIA RTX A5000, производительность которого сравнили с двумя другими конфигурациями: Т4 и RTX 3090.

На каждой из видеокарт провели тестирование обучения нескольких ML-моделей: RuT5, RuT5-Large, Fred-Large, Fred-1.7B. Fred — известная модель, которую обучали на основе T5 на русском языке в течение 35 дней на 160 графических процессорах V100 и 5 дней на 80 процессорах A100, поэтому ее выбрали для тестирования. После тестирования этой модели перешли на оригинальную архитектуру T5, так как появилась большая мультиязычная модель от Google с правильным токенайзером.

Результаты

По итогам тестов видеокарта А5000 показала наилучшие результаты: время обучения сократилось до 14–15 часов (30 эпох обучения) — при этом на локальном решении РБК процесс занимал 8 дней непрерывного обучения. Кроме того, тестирование в облаке позволило повысить надежность и масштабировать ресурсы:

Автоматизация рутинного процесса. Внедрение нейросети позволило сократить время на рутинные задачи по тегированию и освободить ресурсы редакторов для более творческой работы. Среднее время тегирования одного материалов составило 0,02 – 0,03 секунды для статей длиной в 2000 – 3000 токенов, а точность подбора тегов — 99%.

Повышение глубины внимания и улучшение рекомендательных алгоритмов. В будущем использование нейросети для правильной разметки позволит упростить управление контентом для создания более персонализированных рекомендаций. Это улучшит пользовательский опыт и увеличит вовлеченность аудитории.

Снизили затраты на первичные эксперименты с ИИ за счет перехода в облако. Одна из ключевых проблем проектирования решений на базе искусственного интеллекта — высокая потребность в вычислительных мощностях GPU. Аренда облака на начальных этапах разработки и проверки гипотез зачастую выгоднее разворачивания собственных стендов.

Как оценивали эффективность ML-модели для решения задач редакции

Тестирование автоматической разметки материалов тегами на разных проектах издания, включая «РБК Тренды», «РБК Отрасли» и «РБК Life» подтвердило работоспособность подхода. Для перепроверки использовали уже существующие материалы — порядка 25 тысяч полнотекстовых статей, размеченные редакторами, — публикации загружали в нейросеть и оценивали результаты обучения на тестовой датасете. На основе полученных результатов делали выводы о том, насколько релевантные теги подобрала модель.

Перспективы

В дальнейшем решение планируют интегрировать в админку для публикации статей. После загрузки текста, они смогут воспользоваться функцией «подбора тегов», и выбирать наиболее подходящие из предложенных нейросетью. Из предложенного списка тегов редактор оставляет наиболее релевантные, чтобы исключить ошибки и обеспечить высокое качество разметки контента. Это также позволяет гарантировать соответствие редакционной политике и стандартам РБК. Нейросеть не может и не несет ответственности за корректную разметку контента, а только упрощает работу сотрудников.

Помимо высвобождения времени и внимания редакторов, существует гипотеза, что такая автоматизация тегирования улучшит также внутреннюю навигацию по материалам и позволит эффективнее переиспользовать и рекомендовать контент.

Отзыв клиента

«Если говорить о дальнейших планах, то на ИИ (не только генеративный, но и классический) мы смотрим с энтузиазмом. Разнообразные модели помогут, а где-то и уже помогают, например, расшифровывать часовые интервью за минуты; выполнять семантический поиск текста в архиве "РБК ТВ" быстрее и проще; про генерацию картинок, там где это уместно, мы тоже, конечно же, думаем. Поэтому мы постепенно растим внутри техническую экспертизу, а заодно привыкаем думать о внутренних рутинных процессах с точки зрения их оптимизации и автоматизации».

Иван Звягин, продакт-оунер направления ИИ в РБК

Интеграция S3 с другими AWS-сервисами (Lambda, EC2 и CloudFront)
В этой статье мы рассмотрим, как Amazon S3 взаимодействует с ключевыми сервисами AWS: Lambda, EC2 и CloudFront. (далее…)
Подробнее
VDI: как работает виртуализация рабочих столов и зачем она бизнесу
В статье разберем, что такое VDI, каким образом работает виртуализация десктопов и кому подойдет этот подход. Также рассмотрим, какие задачи...
Подробнее
Как поддержать пиковые нагрузки и отказоустойчивость в маркетинговых проектах: кейс Novomail.ru
Для платформы массовых email-рассылок высокая доступность, отказоустойчивость и способность быстро масштабироваться под резкие пиковые нагрузки — ключевые задачи. Рассказываем, как...
Подробнее
Как Data Warehouse (DWH) помогает экономить бизнесу? Разбираемся в корпоративном хранилище данных
Современные компании работают с огромными объемами информации: данными о клиентах, продажах, логистике, и многом другом. Чтобы принимать обоснованные решения, руководителям...
Подробнее
Что такое OLAP-система: объясняем простыми словами
В работе онлайн-бизнеса важную роль играют данные и работа с ними. Эти данные имеют разные форматы и могут собираться из...
Подробнее
HashiCorp Vault: как он помогает защитить ваши секреты
В любой современной ИТ-инфраструктуре количество конфиденциальных данных стремительно растет: пароли баз данных, API-ключи, сертификаты, токены доступа. Хранить их в коде,...
Подробнее
Что такое MQTT-сервер
Давайте погрузимся в мир интернета вещей и разберемся с ключевым элементом его коммуникаций ― MQTT-сервером. Как организовать поток данных от...
Подробнее
Как настроить резервное копирование в S3
Резервное копирование данных из объектного хранилища S3 — это процесс создания копий данных, которые хранятся в Amazon S3 или аналогичных...
Подробнее
Как настроить синхронизацию часов с помощью NTP
Network Time Protocol (NTP) — сетевой протокол для синхронизации системного времени компьютеров через сетевое соединение. При установке соединения NTP-клиент (ваш...
Подробнее
Что такое ETL и с какими задачами поможет
Каждый современный бизнес работает с данными — много и постоянно. Но просто собрать данные недостаточно. Чтобы они стали полезными, их...
Подробнее