ИИ как экосистема, бизнес и рынок
Рис. 3.3. Ответы респондентов на вопрос о наиболее значимых трудностях при внедрении ИИ. Источник: Signally.ai [114]
Данные других опросов свидетельствуют также о таких распространенных барьерах на пути реализации ИИ-проектов как трудности в приобретении профильных навыков и знаний, связанных с ИИ, проблемы, связанные с конкуренцией ИИ-проектов с другими проектами в компании, сложности в решении вопросов обеспечения безопасности и защиты систем на базе ИИ, отсутствие лидерства и поддержки инициатив по ИИ со стороны руководства.
Без надлежащего планирования и анализа рассмотренных выше рисков трудно рассчитывать на успех проекта 1 В узкоспециализированных задачах тоже. Например, transfer learning. - Примечание научного редактора.
Следующий этап на рис. 3.1 - это этап подготовки данных, он включает получение сырых данных и их обработку для создания датасета. Иногда могут использоваться готовые датасеты для обучения модели.
Говоря о подготовке данных, обычно различают такие этапы, как очистка данных (обработка пропущенных значений, обработка выбросов и дубликатов), преобразование (масштабирование, стандартизация, изменение частоты дискретизации), отбор признаков включая понижение размерности и обработку сильно коррелированных признаков), извлечение признаков (в том числе извлечение признаков из текстовых данных, из даты и времени), разметка (о которой поговорим чуть подробнее).
Особенно хотелось бы уделить внимание процессу разметки данных. Этот процесс может осуществляться вручную сотрудниками компании либо отдан на аутсорсинг таким сервисам, как, например, Яндекс.Толока. Еще более эффективным может оказаться внедрение операций разметки данных в бизнес-процессы компании, чтобы сотрудники неявным образом были вовлечены в разметку в процессе своих трудовых обязанностей. В некоторых случаях для сокращения потребности в размеченных данных используют генерацию таких данных на основе 3D-моделей или приемы transfer learning, когда используется обучение на больших имеющихся в открытом доступе датасетах, с последующим дообучением модели на данных предприятия.
Подготовка данных во многих случаях требует специальных знаний для определения того, какие характеристики данных являются критичными. Как уже было отмечено ранее, самым трудоемким этапом является сбор данных, их очистка и разметка.
Разработка модели и обучение
Как только получен первый датасет, можно приступать к разработке моделей машинного обучения. Этап включает в себя работы по проектированию метрик качества работы моделей, созданию и обучению моделей машинного обучения (настройку параметров моделей), настройку гиперпараметров 2Гиперпараметрами в машинном обучении называют параметры алгоритмов, значения которых устанавливаются перед запуском процесса обучения, например к гиперпараметрам в нейронных сетях можно отнести число скрытых слоев и нейронов в них, число итераций обучения, уровень ошибки и долю распознанных примеров, при которых обучение останавливается моделей, сравнение разных моделей друг с другом по качеству.