В последние годы искусственный интеллект (ИИ) и машинное обучение (ML) стремительно входят в повседневную жизнь бизнеса. Однако, за громкими заявлениями о трансформации скрывается суровая реальность: у большинства российских компаний процессы MLOps остаются незрелыми, и каждая организация вынуждена «изобретать велосипед» для решения собственных задач.
В статье рассмотрим современное состояние рынка MLOps в России, его ключевые вызовы и перспективы развития. Раскроем проблемы, связанные с незрелостью процессов и фрагментацией инфраструктуры, а также рассмотрим варианты использования публичных облаков и частных инсталляций.
На сегодняшний день рынок MLOps в России характеризуется фрагментарностью и отсутствием единых стандартов к выстраиванию процессов и построению инфраструктуры под ИИ. Ряд компаний пользуется публичными облачными платформами, такими как Yandex, Selectel, VK, T1 Cloud.
В то же время представители крупных организаций — например, из банковского сектора, — предпочитают частные инсталляции, стремясь обеспечить максимальный контроль над процессами и безопасность данных.

Многие команды не имеют единого шаблона для развертывания ML-инструментов, что приводит к различным конфигурациям компонентов даже при решении схожих задач. В то же время текущие подходы создают дополнительные трудности при масштабировании и интеграции с другими решениями.
Для успешного внедрения необходим комплексный и системный подход, который позволит не только оптимизировать процессы и повысить производительность, но и обеспечить долгосрочное развитие построенной платформы для задач AI/ML. Это объясняет запрос на создание решения, объединяющего как специализированное ПО для ML, так и классические ИТ-сервисы.
Одним из ключевых компонентов ML-инфраструктуры являются видеокарты.
Сегодня на рынке доминируют решения от NVIDIA:
Видеокарты NVIDIA де-факто являются стандартом вычислений, однако использование этого оборудования сопряжено с рядом проблем:
В качестве альтернативы рассматриваются видеокарты китайских производителей. Решения могут оказаться более доступными по цене, однако с ними также есть ряд трудностей:
Портфель китайских продуктов расширяется: такие компании, как Huawei, Iluvatar CoreX, Cambricon Technologies, Jingjia Micro и Moore Threads активно инвестируют в разработку собственных GPU-решений. Наращивание инженерного потенциала должно способствовать созданию конкурентоспособных продуктов, которые будут удовлетворять растущий спрос на вычислительные мощности для ML-задач.

Но получение и настройка графических ускорителей — лишь первый шаг. Для эффективного использования в задачах ИИ и ML необходимо научиться их применять.
Рассмотрим минимальный сценарий запуска Open Source LLM-модели для пользователей, в котором предполагается наличие полностью налаженной корпоративной инфраструктуры.
То есть все необходимые сетевые доступы уже настроены, политики информационной безопасности и технические стандарты позволяют использовать любое выбранное решение, а команда разработчиков обладает высоким уровнем экспертизы.
В таких условиях можно перейти непосредственно к развертыванию модели, не тратя время на интеграционные и регрессионные проверки.
Для выполнения своих задач специалистам команды, в первую очередь, требуется организовать локальную среду разработки, в которой есть необходимый набор инструментов для начала работы. Вторым этапом является создание места для «отгрузки» локально разработанного кода.
Наконец, необходимо сформировать полноценное рабочее место, обладающее несколькими ключевыми возможностями:
В результате мы получили окружение, в котором можем разрабатывать и проверять гипотезы, но это только начало пути. Следующий шаг — обеспечить устойчивость и масштабируемость решения и устранить недостатки, мешающие продуктивной эксплуатации.

Если решение оказывается успешным и его необходимо масштабировать, возникает ряд дополнительных вызовов:
После того, как мы получили целостное понимание базовой экосистемы, необходимой для построения успешного ML-решения, можно детальнее рассмотреть рабочее место разработчика ML и его компоненты.
Рабочее место ML-разработчика — это не просто набор инструментов кодинга, а комплексная система, которая должна удовлетворять широкому спектру требований: от подготовки данных до развертывания и мониторинга моделей.
Основная цель — сократить время на настройку среды и pipeline, обеспечив разработчику удобный и эффективный процесс работы. Опираясь на опыт ведущих специалистов и клиентов, можно выделить несколько ключевых аспектов.
Таким образом, современное рабочее место ML-разработчика должно быть максимально интегрированным, автоматизированным и адаптивным, чтобы не только ускорять процессы разработки, но и снижать time to market, тем самым быстрее приносить ценность для бизнеса.
Помимо базового набора инструментов, рабочее место ML-разработчика требует надежной поддержки инфраструктурными сервисами.

Опыт отрасли и существующие решения свидетельствуют о том, что для продуктивной разработки сервисов и продуктов в сфере ML/AI необходим полный классический технический стек, основные элементы которого можно упрощенно представить следующим образом:
Сервисы можно условно разделить на две категории:
Современные инструменты для управления контейнерами, такие как Docker и Kubernetes, позволяют организовать автоматизированное развертывание и обновление приложений, что значительно сокращает время вывода проекта на рынок.
Программное обеспечение для мониторинга и логирования, например, Prometheus и Grafana, помогает не только отслеживать состояние инфраструктуры, но и оперативно реагировать на возможные сбои.
Критически важен мониторинг самих моделей — их производительности, качества входных данных и стабильности работы. Здесь на помощь приходят специализированные решения для мониторинга физических параметров GPU и пользовательских метрик.
Для хранения и обработки больших объемов информации используются различные базы данных: как SQL, так и NoSQL. Это обеспечивает высокую скорость доступа и надежное хранение информации.
Преимущество Open Source подхода заключается в его гибкости и возможности снизить затраты, однако данные решения требуют наличия квалифицированных экспертов, способных интегрировать и оптимизировать компоненты в единую систему, и что не менее важно — качественно ее эксплуатировать и поддерживать.
Проприетарные решения представляют собой готовые продукты «из коробки», которые могут интегрироваться с частными облачными инсталляциями. Такие сервисы обеспечивают комплексный функционал и высокий уровень поддержки, что важно для масштабных проектов.
Проприетарные продукты также идут в комплекте с дополнительными услугами по настройке, мониторингу и сопровождению, что позволяет снизить нагрузку на внутренние ИТ-ресурсы компании.
.png)
Выпуск моделей для пользователя — это процесс, в котором участвует множество компонентов и техник. Для обеспечения стабильной работы системы необходимо построить непрерывный цикл, позволяющий регулярно оптимизировать производительность, повышать точность модели и внедрять новые функциональные возможности.
Типовой жизненный цикл ML-модели можно разбить на несколько этапов.
1. Сбор и подготовка данных
На этом этапе происходит извлечение данных из различных источников (базы данных, файловые хранилища, API и т.д.) и их предварительная обработка. Важным аспектом является приведение данных к единому формату и обеспечение их качества для последующего использования.

Кроме того, лучшей практикой на этом этапе считается интеграция с инструментами ИБ для проверки на наличие вредоносного кода, вирусов и других угроз, которые могут повлиять на безопасность данных и всей организации.
2. Анализ и исследование данных
После первичной обработки проводится подробный анализ данных: выявляются ключевые признаки, изучается распределение значений, ищутся скрытые зависимости. Этот этап позволяет определить, какие данные будут наиболее полезны для обучения модели, и сформулировать гипотезы для дальнейшего тестирования.
3. Разработка и обучение модели
На данном этапе специалисты выбирают архитектуру, проводят эксперименты и обучают модель на подготовленных данных. Используются интерактивные среды разработки и фреймворки, позволяющие тестировать различные конфигурации и подходы.
4. Управление экспериментами и трекинг модели
Здесь применяются инструменты для регистрации экспериментов, отслеживания параметров и версий модели. Это позволяет сохранять историю изменений, анализировать результаты экспериментов и выбирать оптимальные настройки для финальной модели.
5. Информационная безопасность
Опыт отрасли и нормативные стандарты подтверждают, что создание прототипа, исправление ошибок и доработка функционала — лишь часть процесса. Важно также обеспечить защиту данных и предотвратить возможные утечки. Как правило, перед запуском в промышленную эксплуатацию решение проходит дополнительные проверки со стороны ИБ, а установленные организационно-технические стандарты накладывают дополнительные ограничения на его использование.
6. Развертывание в продуктиве
После завершения этапа обучения модель интегрируется в рабочую среду. Это может включать создание API для доступа к модели, интеграцию с другими системами, настройку контейнеризации и оркестрацию развертывания.
7. Мониторинг и поддержка
На заключительном этапе реализуется постоянный контроль за работой модели в продуктивной среде. Внедряются системы мониторинга, которые отслеживают качество входных и выходных данных, производительность и состояние вычислительной инфраструктуры.

Таким образом, формируется технологический стек, который необходимо разворачивать, мониторить, отлаживать и выполнять операции второго дня. В этом контексте облачные платформы способны упростить разработку, автоматизируя рутинные задачи — от развертывания виртуальных машин до управления контейнерами.
Это ускоряет процессы разработки и снижает влияние человеческого фактора. Но для компаний с высокими требованиями к безопасности, частные инсталляции остаются единственно возможным вариантом на сегодняшний день.
Облачные платформы предлагают разработчику единый интерфейс для доступа ко всем необходимым ресурсам: от виртуальных машин с GPU до инструментов для мониторинга и управления данными. Это позволяет существенно ускорить процессы разработки и обеспечить стандартизацию операций.
Если нужно быстро проверить гипотезу и нет жестких требований к размещению данных внутри компании, имеет смысл арендовать облачные ресурсы. Если же речь идет о долгосрочной стратегии с существенными вычислительными мощностями и сформированной командой специалистов, предпочтительнее строить on‑premise инфраструктуру, а облако применять точечно для пиковых нагрузок или оперативной проверки идей.

Внедрение MLOps — это комплексный и многогранный процесс, требующий глубокого понимания технологий, процессов и инфраструктуры. Это не просто запуск модели, а построение целой системы, обеспечивающей стабильную и эффективную работу ML-приложений на протяжении всего их жизненного цикла.
Успешное развитие MLOps в России требует системного подхода и интеграции инструментов разработчиков с базовыми ИТ-сервисами. Сегодня бизнесу необходимо не только инвестировать в современное оборудование и ПО, но и выстраивать процессы, способные обеспечить стабильное и масштабируемое функционирование ML-решений в условиях текущих технологических изменений и ограничений.
«Серебряной пули» в виде готового решения не существует. Каждая компания должна пройти свой путь, адаптируя лучшие практики и решения под уникальные потребности и условия.
В этом помогает обмен опытом и сотрудничество с экспертами отрасли. Такие практики позволяют минимизировать операционные риски, оптимизировать расходы и создать условия для устойчивого развития MLOps
Комментарии 0