Быть в курсе
Назад к списку статей

Основные задачи машинного обучения: классификация, регрессия, кластеризация и уменьшение размерности

Machine Learning ― это уже часть нашей повседневной жизни. От рекомендаций фильмов на Кинопоиске до спам-фильтров в почте — за всем этим часто стоят алгоритмы машинного обучения. Но что это такое и какие задачи оно умеет решать? Если вы новичок и хотите разобраться в основах, эта статья для вас.

Что такое машинное обучение? Коротко и ясно

Представьте, что вы учите ребенка отличать кошек от собак. Вы показываете ему много картинок: «Это кошка», «Это собака», «А это снова кошка». Со временем ребенок начинает сам понимать, по каким признакам (усы, форма ушей, размер) можно их различить.

Машинное обучение — это очень похожий процесс, только вместо ребенка — компьютерная программа (алгоритм), а вместо картинок — данные. Это область искусственного интеллекта, которая позволяет компьютерам «учиться» на данных без того, чтобы их явно программировали под каждую конкретную задачу.

Вместо того чтобы писать жесткие правила типа «Если есть усы и мяукает, то это кошка» , мы «скармливаем» алгоритму множество примеров (данных) и позволяем ему самому найти закономерности и научиться делать выводы или прогнозы. Данные — это топливо для машинного обучения.

При работе с большими объемами данных в машинном обучении требуются значительные вычислительные ресурсы. Именно поэтому так популярны облачные платформы. Если вы задумываетесь, где можно было бы экспериментировать с моделями или развернуть свое ML-решение, обратите внимание на облачные решения от компании Рег.ру. Они предоставляют гибкую и масштабируемую инфраструктуру (виртуальные серверы, хранилища), которая поможет вам начать работу с машинным обучением, не беспокоясь о покупке и настройке собственного оборудования.

Какие задачи решает машинное обучение

Машинное обучение — это не какая-то одна волшебная технология, а целый набор инструментов и методов для решения разных типов задач разработчиков. Можно сказать, что у ML-алгоритмов есть свои «профессии» или основные виды работ. Самые главные из них:

  1. Сортировка по категориям (классификация) ― распределить объекты по известным группам.
  2. Предсказание чисел (регрессия) ― спрогнозировать конкретное числовое значение.
  3. Поиск похожих групп (кластеризация) ― найти скрытые группы в данных без предварительных подсказок.
  4. Упрощение данных (уменьшение размерности) ― сделать сложные данные проще для понимания и обработки.

Давайте рассмотрим каждую из этих задач подробнее с примерами.

Источник: Shutterstock. Из этих четырех задач можно вывести сотни различных применений алгоритмов нейросетей ― от составления кратких аннотаций до автопилота в автомобилях

Классификация задач машинного обучения, примеры

Здесь мы разберем те самые «профессии» ML-алгоритмов.

1. Классификация

Это задача отнести объект к одной из нескольких заранее известных категорий или «классов». Алгоритм учится на примерах, где правильный ответ уже известен.
Ключевой вопрос: «К какой группе это относится?», например, при сортировке писем на «Спам» и «Не спам». Категории известны, нужно просто решить, куда положить новое письмо. Алгоритм изучает множество писем, уже помеченных как «спам» или «не спам». Он ищет слова, отправителей, особенности текста, которые чаще встречаются в спаме, и те, что характерны для обычных писем. На основе этих закономерностей он потом классифицирует новые, незнакомые письма.

2. Регрессия

Это задача предсказать конкретное числовое значение. В отличие от классификации, где ответ — это категория, здесь ответ — это число. Ключевой вопрос: «Сколько?» или «Какое значение?». Например, предсказание цены на квартиру. Ответ будет числом, а не категорией.
Алгоритм изучает данные о множестве квартир: их площадь, район, количество комнат, этаж и их реальную цену продажи. Он пытается найти математическую зависимость между характеристиками квартиры и ее ценой. Зная эту зависимость, он может предсказать цену для новой квартиры с известными характеристиками.

3. Кластеризация

Это задача сгруппировать похожие объекты вместе, не зная заранее, какие группы существуют. Алгоритм сам ищет естественные «скопления» или «кластеры» в данных. Ключевой вопрос: «Какие здесь есть похожие группы?». Алгоритм анализирует характеристики объектов и ищет объекты, которые «близки» друг к другу по этим характеристикам, объединяя их в кластеры. Объекты в одном кластере должны быть похожи друг на друга, а объекты из разных кластеров – отличаться.

4. Уменьшение размерности

Представьте, что у вас есть таблица с данными, где сотни или тысячи столбцов (признаков). Работать с такими данными сложно и долго. Уменьшение размерности — это способ упростить данные, сократив количество признаков, но постаравшись сохранить самую важную информацию.
Ключевой вопрос: «Как упростить эти данные, не потеряв суть?» Алгоритмы ищут способы либо выбрать самые важные признаки, либо объединить несколько старых признаков в новые, более информативные.

Источник: Shutterstock. Уменьшение размерности часто используется как предварительный шаг перед применением классификации или кластеризации, чтобы улучшить их работу

Примеры как используется машинное обучение в различных сферах

Теперь, когда вы знаете основные задачи, давайте посмотрим, где они находят применение в реальном мире:

Медицина
Диагностика заболеваний по снимкам (классификация), предсказание риска развития болезни (регрессия), поиск групп пациентов со схожим течением болезни (кластеризация).

Финансы
Обнаружение мошеннических транзакций (классификация, поиск аномалий в кластеризации), оценка кредитоспособности клиента (классификация, регрессия), прогнозирование рыночных трендов (регрессия).

Торговля и E-commerce
Рекомендательные системы (часто используют методы, близкие к кластеризации и регрессии), сегментация клиентов (кластеризация), прогноз спроса на товары (регрессия).

Транспорт
Беспилотные автомобили используют множество задач, включая распознавание объектов - классификацию, оптимизация маршрутов доставки (регрессия, задачи оптимизации), предсказание поломок (классификация).

Развлечения
Рекомендации фильмов, музыки, книг (как в E-commerce), создание игровых ботов.

Повседневная жизнь
Спам-фильтры (классификация), виртуальные помощники (Алиса), машинный перевод, поиск информации в интернете, распознавание лиц на фото.

Машинное обучение — это инструмент, который помогает находить закономерности в данных, делать прогнозы и автоматизировать сложные задачи. Классификация, регрессия, кластеризация и уменьшение размерности — это лишь основные «кирпичики», из которых строятся современные интеллектуальные системы. Мир ML огромен и постоянно развивается, но понимание этих базовых задач — отличный старт для погружения в эту увлекательную область.

Андрей Лебедев

Интеграция S3 с другими AWS-сервисами (Lambda, EC2 и CloudFront)
В этой статье мы рассмотрим, как Amazon S3 взаимодействует с ключевыми сервисами AWS: Lambda, EC2 и CloudFront. (далее…)
Подробнее
VDI: как работает виртуализация рабочих столов и зачем она бизнесу
В статье разберем, что такое VDI, каким образом работает виртуализация десктопов и кому подойдет этот подход. Также рассмотрим, какие задачи...
Подробнее
Как поддержать пиковые нагрузки и отказоустойчивость в маркетинговых проектах: кейс Novomail.ru
Для платформы массовых email-рассылок высокая доступность, отказоустойчивость и способность быстро масштабироваться под резкие пиковые нагрузки — ключевые задачи. Рассказываем, как...
Подробнее
Как Data Warehouse (DWH) помогает экономить бизнесу? Разбираемся в корпоративном хранилище данных
Современные компании работают с огромными объемами информации: данными о клиентах, продажах, логистике, и многом другом. Чтобы принимать обоснованные решения, руководителям...
Подробнее
Что такое OLAP-система: объясняем простыми словами
В работе онлайн-бизнеса важную роль играют данные и работа с ними. Эти данные имеют разные форматы и могут собираться из...
Подробнее
HashiCorp Vault: как он помогает защитить ваши секреты
В любой современной ИТ-инфраструктуре количество конфиденциальных данных стремительно растет: пароли баз данных, API-ключи, сертификаты, токены доступа. Хранить их в коде,...
Подробнее
Что такое MQTT-сервер
Давайте погрузимся в мир интернета вещей и разберемся с ключевым элементом его коммуникаций ― MQTT-сервером. Как организовать поток данных от...
Подробнее
Как настроить резервное копирование в S3
Резервное копирование данных из объектного хранилища S3 — это процесс создания копий данных, которые хранятся в Amazon S3 или аналогичных...
Подробнее
Как настроить синхронизацию часов с помощью NTP
Network Time Protocol (NTP) — сетевой протокол для синхронизации системного времени компьютеров через сетевое соединение. При установке соединения NTP-клиент (ваш...
Подробнее
Что такое ETL и с какими задачами поможет
Каждый современный бизнес работает с данными — много и постоянно. Но просто собрать данные недостаточно. Чтобы они стали полезными, их...
Подробнее