Внедрение ИИ в корпоративной среде сталкивается с фундаментальной проблемой: фрагментированная ИТ-инфраструктура не справляется со скоростью внедрения инноваций и требованиями к безопасности. Разрозненные GPU-серверы, стихийно развернутые Kubernetes-кластеры, отсутствие общих конвейеров сборки/доставки, единых подходов к ИБ и единых стандартов превращают перспективные ИИ-инициативы в источник технического долга.
Решение — программно-аппаратные комплексы (ПАК) нового поколения: гибридные частные облака с self-service возможностями на уровнях IaaS, PaaS и SaaS. Эти платформы объединяют специализированное оборудование (GPU-серверы, высокоскоростные сети InfiniBand), системы хранения и управления данными, инструменты для ML/LLM-разработки — в единую управляемую среду, соответствующую требованиям российского законодательства.
Технологии ИИ проникли во все сферы — от корпоративной аналитики до научных исследований. ИИ-системы создают видеоролики по текстовому описанию, моделируют химические реакции без доступа к лаборатории, генерируют дизайн-проекты, проводят оценку рисков/скоринг за минуты. Пользователи обращаются к ИИ, потому что он экономит время, снижает барьер входа в сложные области и ускоряет достижение профессиональных результатов.
За простотой веб-интерфейсов скрывается высококонкурентный рынок. Ежедневно появляются десятки новых моделей на Open Source, API и проприетарных платформ. Вчера все использовали Stable Diffusion 1.5 — сегодня выбирают между SDXL, Playground v2.5 и fine-tuned LoRA-адаптерами. В сфере языковых моделей Llama 3 от Meta конкурирует с GPT-4o от OpenAI, а Mistral и Qwen оптимизированы для edge-устройств. Hugging Face стал «GitHub для моделей», где ежедневно публикуются сотни специализированных версий.
Эта динамика требует от команд умения быстро тестировать гипотезы, экспериментировать с архитектурами, сравнивать производительность и выпускать обновления с частотой agile-разработки. Задержка в две недели может означать потерю ниши или аудитории, а использование низкопроизводтельных GPU-ускорителей (например, NVIDIA cерии RTX, предназначенной для потребительского сегмента) приводит к длительным экспериментам, проблемам со скоростью обработки информации и невозможностью завершить создание решения на базе ИИ.
Но не все задачи требуют дорогостоящих GPU-кластеров. Локальный RAG-ассистент на базе ChromaDB и Llama.cpp может работать даже на обычных серверах без GPU. Модели Phi-3-mini или TinyLlama справляются с классификацией текста на ноутбуке. Однако дообучение модели Llama 3 размером 8B или обучение LoRA-адаптеров для модели генерации изображений Stable Diffusion XL требуют уже минимум NVIDIA L40, а в случае глубокого дообучения — распределенных H100/H200. Эффективная работа с ИИ — это грамотное распределение ресурсов: где достаточно CPU, где критичен GPU, как использовать кванто- вание (GGUF, AWQ), ONNX-оптимизации и кэширование.
Техническая гибкость — только часть задачи. Не менее важна юридическая устойчивость. В России это означает соответствие ФЗ №152 «О персональных данных». С 1 марта 2024 года компании обязаны хранить персональные данные граждан РФ исключительно на территории страны. Например, использование банком облачного GPT-4 для обработки запросов с ФИО и номерами счетов нарушает статью 18 закона и грозит штрафом.
Внедрение ИИ в медицинских клиниках требует соответствия ФЗ №323 «Об основах охраны здоровья граждан» и Приказу ФСТЭК №21. Отсутствие шифрования, аудита доступа или использование несертифицированных средств защиты влечет административную и уголовную ответственность.

Большинство предприятий функционирует в рамках унаследованной инфраструктуры — набора разрозненных решений, закупленных под конкретные задачи в разное время. GPU-серверы приобретаются отдельно, системы хранения выбираются по остаточному принципу, ПО для машинного обучения разворачивается стихийно.
Результат — технологический конгломерат без единых стандартов конфигурации, управления и мониторинга. Администрирование превращается в борьбу с несовместимостью, масштабирование — в многоэтапный инженерный проект.
Переход от экспериментов к промышленной эксплуатации занимает недели или месяцы. Модель с ноутбука дата-сайентиста требует адаптации окружения, настройки зависимостей, обеспечения отказоустойчивости. Конкуренты с унифицированными средами выпускают обновления быстрее.
Отсутствие централизованного аудита затрудняет доказательство соответствия требованиям ФСТЭК и ФСБ. Несовместимость систем мешает реализации сквозных процессов. Разнородность оборудования увеличивает стоимость владения — требуются специалисты под каждую платформу.

Архитектура комплекса начинается с физического проектирования серверного парка, сетевой инфраструктуры и систем хранения с учетом специфики ИИ-нагрузок.
Центральное место занимают GPU-серверы с ускорителями NVIDIA (A100, H100, L40S). NVIDIA — мировой лидер на рыке графических ускорителей и не нуждается в представлении. Однако с учетом ограничений на поставку в ряд стран и высокой конечной стоимостью для потребителя крупные игроки активно ищут ее аналоги. Уже сейчас появляются новые производители GPU-ускорителей/серверов с GPU: Metax, Moore, Huawei. Эти производители проходят цикл нагрузочных, функциональны тестов, а также проверки на совместимость с приложениями, для дальнейшего выбора решений. Анализируя опыт отрасли, а также данные полученные коллегами в ходе тестирования альтернативных вендоров NVIDIA, налюдается переход от погони за «топовым GPU» к более прагматичному вопросу: «Что потеряет решение, при использовании вендора, альтернативного NVIDIA?». Также остро стоит задача постановки и проработки итогового результата решения. Например, при обучении больших моделей необходимо объединить 4-8 GPU внутренней высокоскоростной шиной для обмена информацией. При этом объем графической памяти на каждой GPU-карте может составлять 80 Гб. А для тестирования модели и ее оптимизации необходимы 1-2 GPU с поддержкой выделения определенного размера графической памяти (vGPU MIG), использование младшей линейки NVIDIA или альтернативного производителя.
Безусловно, можно для вышеперечисленных задач использовать память всей GPU. Однако при переходе к мультитенантности, когда один сервер одновременно обслуживает задачи разных команд без конфликта ресурсов, и оптимизации использования дорогого ресурса GPU, разделение целикового ускорителя на фиксированные объемы видеопамяти (vGPU MIG) — обязательно.
Для data engineering, оркестрации, хранения метаданных и SaaS-сервисов используются серверы на базе мощных CPU (Intel Xeon Scalable). Большой объем RAM и быстрые NVMe-диски критичны для инструментов для работы с данными, такими как: Airflow, Spark, Kafka и dbt. Это высвобождает дорогостоящие сервера с GPU для задач, где они действительно нужны.
В ML-среде критична пропускная способность и низкая задержка. Используются специализированные серверы хранения на базе NVMe и распределенные файловые системы (CephFS, Lustre). Они агрегируют сотни NVMe-дисков с пропускной способностью до десятков ГБ/с — датасет 50 ТБ загружается за минуты, а не часы.
Для долговременного хранения применяются иерархические хранилища на медленных дисках (HDD), для организации холодного хранилища — быстрые диски (например, NVMe) для органазации быстрого доступа к данным.
Обучение распределенных моделей на кластерах из десятков GPU требует крайне низких задержек и многогигабитной пропускной способности для эффективного обмена градиентами и параметрами между узлами. Для этих задач используются специализированные высокоскоростные сети — InfiniBand NDR или RoCE v2, обеспечивающие пропускную способность до 400 Гбит/с. Благодаря технологии RDMA они позволяют передавать данные напрямую между памятью узлов, минуя CPU и сетевой стек ОС, что критически важно для масштабируемости и производительности обучения.
Одновременно требуется надежный и гибкий канал для управления серверным оборудованием, оркестрации ИТ-приложений и взаимодействия с внешними сервисами. Для этого выделяется отдельная управляющая сеть на базе Ethernet до 100 Гбит/с с отказоустойчивыми L3-коммутаторами. Такое разделение вычислительного и управляющего трафика повышает стабильность, безопасность и упрощает эксплуатацию всей инфраструктуры. Таким образом, реализуется гибридная архитектура, в которой:
Отказоустойчивость — важный компонент реализации задач непрерывного доступа пользователя к функциям бизнес-решений. Для реализации задач отказоустойчивости каждый сервер должен содержать систему резервирования как на уровне блоков питания, так и поддерживать функцию горячей замены дисков. В фабричной топологии каждый коммутатор дублируется резервным, который автоматически активируется при сбое основного. Каждая система хранения должна поддерживать репликацию в реальном времени.
При этом немаловажным остается не просто физическое резервирование аппаратной инфраструктуры или создание отказоустойчивых инфраструктурных приложений, но реализация наблюдаемости с помощью централизованных систем сбора телеметрической информации.
Например:
Пример: исследовательский центр развернул кластер из 8 GPU-серверов (по 8× H100), объединенных с помощью InfiniBand в полносвязную топологию. Storage-кластер 1.2 ПБ NVMe с Lustre обеспечивает скорость чтения 28 ГБ/с. При обучении модели на 70 млрд параметров коллективные операции между GPU занимали менее 3% времени эпохи благодаря низкой задержке сети. При этом метрики утилизации аппаратных ресурсов находились в норме, что позволило перейти от разработки решений, к промышленной эксплуатации.
Решение объединяет существующие и будущие компоненты в единую управляемую среду. ПАК нового поколения — это гибридное частное облако с self-service на уровнях IaaS, PaaS и SaaS. Пользователи с разными ролями заказывают ресурсы, развертывают окружения и запускают ИИ-решения без ожидания ИТ-отдела.
Пользователь заказывает виртуальную машину с выбором ОС (Astra Linux, РЕД ОС, Ubuntu, AlmaLinux или другие), типа GPU-ресурсов, сети и хранилища. ВМ разворачивается с предустановленными драйверами CUDA, Docker, containerd и инструментами мониторинга.
GPU предоставляются в выделенном режиме (полная карта) или в режиме совместного использования (vGPU) для задач инференса и легкого дообучения.
Дата-сайентист, ML-инженер или DevOps получает готовое окружение и полную свободу для экспериментов. Рассмотрим основной набор инфраструктурных сервисов для реализации подходов MLOps:
Среды разработки:
Базы данных и векторные хранилища:
Data pipelines:
Извлечение и интеграция (ELT/ETL):
Трансформация и управление:
Хранилища и витрины:
Пример pipeline: данные из 1С → Airbyte → dbt → Great Expectations → ClickHouse → обучение модели churn prediction → публикация результатов в Metabase.
ML-инструменты:
Однако часто у команд эксплуатации появляются запросы от бизнес-пользователей, аналитиков, менеджеров — как реализовать задачу с помощью сторонних приложений или готовых сервисов, которые представлены в виде готовых решений. Поэтому логичным развитием инфраструктуры является построение платформы, которая предоставляет возможность управления продуктами в формате SaaS. Например:
Инференс имеет другие требования (задержка, пропускная способность, стоимость запроса) и неэффективен в том же окружении, что обучение.
Выбор серверов:
Пример: Аналитик загружает дообученную модель BERT для классификации обращений клиентов, выбирает Triton, включает режим FP16, настраивает автоматическое масштабирование от 1 до 5 реплик — и через три минуты получает REST API для интеграции с CRM.
Администратор определяет, кто какие ресурсы может заказывать, какие модели запускать, куда экспортировать данные. RBAC и аудит встроены на всех уровнях.
Предприятия выбирают между двумя типами решений.
Единый комплект: серверное оборудование + системное и прикладное ПО, преднастроенное для задач ИИ. Поддержка от инсталляции до сопровождения.
Примеры:
Устанавливаются на существующую или новую инфраструктуру. Охватывают полный цикл: от подготовки данных до мониторинга в production.
Примеры:
Организации выбирают между готовыми ПАК и гибкими программными платформами в зависимости от имеющейся инфраструктуры, требований к безопасности и специфики задач.
Внедрение ПАК не отменяет необходимость системного подхода к архитектуре. В гибридных многоуровневых средах архитектурное моделирование критически важно.
Фреймворки C4 Model, TOGAF, Arc42, 4+1 View позволяют спроектировать, как платформа встраивается в бизнес-процессы, какие системы интегрируются, как управляются данные и риски.
Пример: добывающая компания внедрила платформу для прогнозирования износа бурового оборудования. SaaS-сервис на RAG и LLM анализировал техдокументацию, отчеты ремонтных бригад и данные IoT для рекомендаций по предиктивному обслуживанию.
Без архитектурного описания потоков данных сервис напрямую запрашивал сырые данные с пограничных устройств, минуя централизованное хранилище с очищенными датасетами. Результат: одни модели обучались на «грязных» данных, другие — на агрегированных метриках. Система одновременно рекомендовала срочную замену насоса и продление его срока службы.
Проблема решена после построения контейнерной диаграммы C4, внедрения унифицированного хранилища признаков (Feast) и настройки политик прослеживаемости данных с помощью Great Expectations и Airflow.
Внедрение ИИ в корпоративной среде упирается не в отсутствие моделей или данных, а в отсутствие целостной инфраструктуры. Решение — переход к ПАК нового поколения: гибридным частным облакам с self-service на всех уровнях.
Эти платформы объединяют специализированное оборудование, системы управления данными и инструменты ML/LLM-разработки в единую среду, соответствующую требованиям российского законодательства. Выбор и внедрение такого комплекса — ключевое решение для организаций, стремящихся эффективно использовать ИИ как инструмент роста и конкурентного преимущества.
Комментарии 0