Статья от эксперта
Опубликовано 09.07.2025

Инфраструктура ИИ простыми словами: определение и принципы построения

5
9
0
580

Инфраструктура ИИ простыми словами: определение и принципы построения

Статья от эксперта
Опубликовано 09.07.2025
5
9
0
580

Автор статьи

Moderator photo

Иван Спирякин

Эксперт по продвижению инфраструктурных решений

Введение

По данным Research Nester, мировой рынок ИИ-инфраструктуры в 2024 году составил 45,97 млрд долларов, и до 2037 года будет расти со среднегодовым темпом 28,7%. Рынок двигает вперед разработка все более мощных, производительных чипов и процессоров, необходимых для сложных вычислений. ИИ-модели становятся быстрее и «умнее», и их обучение требует соответствующего оборудования и данных.

Также драйвером роста является развитие новых инструментов и систем ИИ. По данным исследовательской компании J’son & Partners Consulting, российский рынок высокопроизводительных серверов для ИИ к 2027 году составит 83 млрд руб. Показательно, что почти все отечественные создатели высокопроизводительных серверов, участвовавшие в опросе компании, заявили, что работают над оборудованием, которое будет совместимо с ИИ-ускорителями. 

Другая важная тенденция состоит в том, что компании предъявляют все более высокий спрос на комплексные цифровые решения для управления ИИ-ресурсами, а они доступны прежде всего в рамках комплексной ИИ-инфраструктуры, которая остается относительно новым явлением на ИТ-рынке и все еще вызывает у компаний вопросы.

Определимся с терминами

Прежде чем говорить об ИИ-инфраструктуре, стоит уделить внимание определению базовых терминов.

Искусственный интеллект (Artificial Intelligence, AI, ИИ) — это технология, благодаря которой машины имитируют мышление человека и решают задачи, ранее посильные только живым людям. ИИ-модели, в сочетании с другими технологиями, такими как умные датчики, элементы интернета вещей, роботы, помогают автоматизировать банковский скоринг, клиентский сервис, исследовательскую работу и множество других процессов в бизнесе, социальной жизни, науке. Более того: так как ИИ способен учиться (для этого используется машинное обучение), то он решает все более сложные задачи, которые изначально недоступны человеку, так как сопряжены с необходимостью различать и классифицировать огромные объемы данных. 

Машинное обучение (Machine Learning, ML) — это область ИИ, которая использует данные и алгоритмы обработки в процессе обучения, в результате которого точность ответов повышается. Благодаря ML, ИИ-модели умеют делать прогнозы, заниматься предиктивной аналитикой, классифицировать информацию, генерировать контент и выполнять другие задачи. При этом процесс постоянного дообучения больших языковых моделей (Large Language Model, LLM) позволяет сокращать расхождения между оценками модели и известными примерами. Образно говоря, обучение ИИ можно сравнить с формированием новых нейронных клеток в мозге человека. 

Инфраструктура искусственного интеллекта (ИИ-инфраструктура) — это термин, который относится к оборудованию и программному обеспечению, необходимым для создания и развертывания приложений и решений на базе ИИ.  Инфраструктура ИИ позволяет разработчикам эффективно создавать и развертывать приложения ИИ и машинного обучения, такие как чат-боты, распознавание лиц и речи, компьютерное зрение, автоматизация рутинных задач, в том числе с использованием различных агентов (Agentic AI) и другие. Для повышения эффективности бизнес-процессов с помощью ИИ предприятиям всех размеров и из самых разных отраслей необходимо сначала построить ИИ-инфраструктуру. 

Профессор vs толпа школьников: отличия ИТ-инфраструктуры от ИИ-инфраструктуры

По мере того, как компании приступают к внедрению ИИ, становится очевидно: традиционная ИТ-инфраструктура для этого не подходит. ИИ требует принципиально иного подхода.

Первое отличие ИИ-инфраструктуры от ИТ-инфраструктуры — для задач ИИ нужны огромные вычислительные мощности. Обеспечить их можно, используя графические процессоры (GPU), а не обычные центральные процессоры (CPU). Серверы с GPU-картами — чаще всего производства компании NVIDIA — дают возможность параллельной обработки данных и ускоряют матричные и векторные вычисления, которые распространены в задачах ИИ.  

Разницу легко понять на аналогии. Представьте, что нужно обучить языковую модель — типичная задача для ИИ. «Умный профессор» (CPU) будет решать ее в одиночку, шаг за шагом, последовательно перебирая данные. Это займет неделю. А теперь представьте «толпу школьников» (GPU). Каждый школьник может взять крошечную часть задачи и решить ее одновременно со всеми остальными. Благодаря такой массовой параллельной работе та же самая задача будет выполнена за считанные минуты. Почему так происходит?

  • GPU («толпа школьников») работают по матричному принципу. Они одновременно выполняют огромное количество простых, но одинаковых вычислений. Как школьники, дружно решающие много примеров одного типа. Кстати, именно так обрабатываются пиксели в видеоиграх: треугольники, прямоугольники — все это матрицы! И именно так «думает» сам ИИ — через массовые операции с матрицами данных.
  • CPU («умный профессор») же в основном работает в последовательном, алгоритмическом режиме. Он блестяще справляется со сложной логикой и управлением, но для гигантских объемов однотипных вычислений, как в ИИ, он слишком «медлителен», по сравнению с параллельной мощью GPU.

Второе ключевое отличие — программный стек. ИИ-инфраструктура требует не просто программ, а специализированных инструментов, которые умеют управлять «толпой школьников» (GPU) и координировать их работу с «профессором» (CPU). Программный стек ИИ-инфраструктуры включает:

  • Системы оркестрации вычислений
    Их можно представить как «диспетчеров», которые распределяют задачи между тысячами «школьников» (GPU) и следят, чтобы они не мешали друг другу. Без них «толпа» превратится в хаос. Примеры инструментов: Kubernetes (K8s), Docker Swarm, Slurm
  • Оптимизированные библиотеки для GPU 
    Это «инструкции на языке школьников», позволяющие «профессору» (CPU) эффективно ставить задачи GPU. Без них «школьники» не поймут, что делать. Примеры инструментов: CUDA (NVIDIA), ROCm (AMD), cuDNN. 
  • Инструменты для управления данными
    Это «библиотекари», которые подают «школьникам» (GPU) правильные «учебники» (данные) в нужный момент. ИИ требует огромных и быстро меняющихся данных. От их качества и объемов прямо зависит точность работы моделей, а значит, и решение задач бизнеса. Примеры инструментов: Apache Kafka (потоковая обработка), DVC (Data Version Control), векторные БД (Qdrant, Milvus).
  • Сервисы для развертывания моделей (MLOps-платформы) 
    MLOps (Machine Learning Operations) — это методологии и практики для управления моделями машинного обучения: от их разработки до ввода в эксплуатацию. О них подробно рассказал мой коллега в статье «Как российские компании осваивают MLOps». Соответственно, MLOps-платформы — это инструменты, которые позволяют ускорять создание, развертывание и эксплуатацию ИИ-приложений за счет структурированного подхода и набора исходных стандартных механик. При этом здесь необходимо отметить — то, как выглядит ИИ-домен, может отличаться от компании к компании. 
    А в нашей аналогии MLOps-платформа — это «система проверки домашних заданий»: упаковывает решение «школьников» (обученную модель) и позволяет использовать его в реальном мире (API, приложения).  Примеры инструментов: TensorFlow Serving, TorchServe, KServe, MLflow.
  • Инструменты мониторинга и отладки
    А это «журнал успеваемости», который помогает инженеру понять, где «школьники» (GPU) ошиблись, и улучшить процесс обучения. Примеры: Weights & Biases (W&B), TensorBoard, Prometheus+Grafana.

Надеюсь, что теперь, благодаря этой аналогии с профессором и толпой школьников, специфика ИИ-инфраструктуры стала вам чуточку понятнее.

Преимущества ИИ-инфраструктуры

Помимо разработки передовых приложений для клиентов, компании, инвестирующие в ИИ-инфраструктуру, обычно видят значительные улучшения в своих рабочих процессах. Ниже наиболее распространенные преимуществ, которые могут ожидать предприятия, развивающие инфраструктуру под ИИ:

  • Масштабируемость и гибкость
    В части предоставления ресурсов ИИ-инфраструктура — в отличие от классической ИТ-инфраструктуры — может опираться на платформы виртуализации или контейнеризации. Такой подход к проектированию объясняется тем, что наборы данных, необходимые для работы ИИ-приложений, становятся больше и сложнее. Например, размеры больших языковых моделей растут экспоненциально от миллиарда параметров до сотен миллиардов. Поэтому ИИ-инфраструктура спроектирована таким образом, чтобы масштабироваться вместе с увеличением этих данных.
  • Скорость и высокая производительность
    Высокопроизводительные мощности, обеспечивающие возможность параллельного выполнения множества операций, значительно сокращают time-to-market продукта. Скорость развития сервисов сегодня имеет решающее значение во многих компаниях, особенно в части клиентского опыта. Поэтому высокая скорость и производительность являются важнейшей характеристикой ИИ-инфраструктуры, которая может повлиять на показатели бизнеса.
  • Эффективное взаимодействие команд разработчиков
    ИИ-инфраструктура — это не только аппаратное и программное обеспечение. Она также предоставляет разработчикам и инженерам сервисы и процессы, необходимые для более эффективной совместной работы при создании ИИ-приложений.
  • Сокращение затрат на разработку ИИ-приложений
    Несмотря на то, что инвестиции в ИИ-инфраструктуру могут стать очень серьезными, стоит отметить, что затраты на разработку ИИ-приложений на традиционной ИТ-инфраструктуре могут быть еще более дорогостоящими. ИИ-инфраструктура обеспечивает оптимизацию ресурсов и использование наилучших доступных технологий и практик при разработке и развертывании проектов ИИ.
  • Использование возможностей генеративного ИИ
    ИИ-инфраструктура открывает компаниям путь к работе с GenAI, так как такие сервисы требуют специфического программного и аппаратного обеспечения. В результате появляется возможность повысить эффективность своих бизнес-процессов: AI-ассистенты снимают с сотрудников часть рутинной работы, например, по созданию контента, аналитике, подготовке документации и в сфере клиентского сервиса, обрабатывая первые обращения. Более того, некоторые ИИ-модели уже способны самостоятельно разрабатывать код. Использование генеративного ИИ может радикально повышать эффективность бизнеса, хотя и требует пока осторожности из-за несовершенства моделей и неопределенности правового поля.

Как построить ИИ-инфраструктуру

Создание эффективной инфраструктуры для разработки, обучения и внедрения искусственного интеллекта — задача, требующая тщательной проработки и стратегического подхода. Рассмотрим ключевые этапы и нюансы, связанные с аппаратной и программной частями.

1. Определение целей, масштаба и бюджета
Прежде всего, необходимо понять, каких результатов компания ожидает от ИИ. Какие задачи будут решаться с помощью моделей? Важно оценить масштаб проекта: достаточно ли одного сервера или потребуется «многомашинное» обучение с десятками GPU для обработки больших данных? Это определит необходимую вычислительную мощность и затраты. Бюджет также играет ключевую роль. Он должен включать как капитальные вложения (аппаратное и программное обеспечение), так и операционные расходы (энергия, поддержка, облачные сервисы). Недооценка масштаба или бюджета может привести к задержкам и финансовым проблемам.

2. Выбор стратегии размещения: облако, on-premise или гибрид
Выбор стратегии размещения инфраструктуры — один из самых важных шагов. Рассмотрим три основных варианта:

  • On-premise (локально): полный контроль над данными и инфраструктурой, что особенно важно для компаний, работающих с конфиденциальной информацией. Однако это требует значительных инвестиций в «железо», ПО и сотрудников.
  • Облако (AWS, GCP, Azure, Yandex Cloud, SberCloud и др.): гибкость, масштабируемость и доступ к новейшим технологиям. Оплата по факту использования делает этот вариант привлекательным, но возможны вопросы безопасности и совместимости.
  • Гибрид: оптимальный выбор для компаний, которым важно сохранить часть данных на своих серверах, а часть задач выполнять в облаке. Это требует интеграции, но обеспечивает баланс между безопасностью и гибкостью.

3. Выбор аппаратных решений
Если вы выбрали стратегию on-premise или гибрид, необходимо тщательно подойти к выбору аппаратных компонентов. Ключевым элементом для обучения ИИ являются GPU-серверы. Важно учитывать требования к производительности, энергоэффективности и доступности оборудования.

Сетевое оборудование, системы хранения данных и охлаждение также играют важную роль. Необходимо обеспечить высокую скорость передачи данных между серверами и эффективное охлаждение мощных GPU.

4. Планирование размещения в ЦОД
При размещении серверов в ЦОД необходимо учитывать энергопотребление, охлаждение и сетевую инфраструктуру. Мощные GPU-серверы потребляют значительное количество энергии, поэтому важно правильно рассчитать нагрузку на стойку и обеспечить эффективное охлаждение. Также необходимо точно рассчитать длины и количество кабелей для интерконнекта между серверами и коммутаторами. Физическая схема размещения должна быть тщательно продумана.

5. Выбор программных решений и платформ
Выбор программного обеспечения — не менее важный этап. Базовый стек включает виртуализацию, ОССУБД, DNS, LDAP/AD, системы мониторинга и логирования. Для задач, связанных с ИИ, потребуются специализированные фреймворки (PyTorch, TensorFlow), MLOps-платформы (MLflow, Kubeflow) и инструменты управления данными.

Альтернативой может стать использование программно-аппаратных комплексов (ПАК), которые включают преднастроенное железо и ПО. Это может быть быстрым и удобным решением, но требует учета совместимости и поддержки.

6. Организация управления и предоставления ресурсов
Эффективное управление ресурсами — залог успешной работы ИИ-инфраструктуры. Потребности в ресурсах могут различаться в зависимости от задач: обучение требует мощных GPU, а инференс может работать на менее производительных серверах. Существует несколько моделей предоставления ресурсов:

  • Bare Metal + ручное управление: сервер целиком под задачу, но это неэффективно и требует долгого времени на настройку.
  • Bare Metal + планировщик ОС: квотирование ресурсов на одном сервере, но ограничено одной ОС.
  • Серверная виртуализация (vGPU): выделение виртуальных машин с доступом к GPU, что обеспечивает лучшую утилизацию ресурсов.
  • Контейнеризация (Kubernetes + GPU-планировщик): максимальная гибкость, изоляция окружений и автоматическое размещение задач. Это наиболее современный и гибкий подход.

7. Обеспечение информационной безопасности
Защита данных — ключевой аспект при создании ИИ-инфраструктуры. Необходимо внедрить организационные и технические меры защиты на всех уровнях. Особое внимание следует уделить защите персональных данных в соответствии с законодательством. Управление уязвимостями, контроль доступа, мониторинг угроз и резервное копирование — все это важные элементы информационной безопасности.

8. Запуск, поддержка и эксплуатация
После завершения всех подготовительных этапов необходимо запустить инфраструктуру и обеспечить ее поддержку. Важно подготовить команду инженеров и разработчиков, организовать процессы обновления ПО и прошивок оборудования, а также настроить мониторинг производительности и доступности ресурсов. Определение уровней технической поддержки также играет важную роль. Это может быть внутренняя команда или сотрудничество с поставщиками.

Используя этот чек-лист, компания сможет выстроить ИИ-инфраструктуру с учетом своих потребностей и целей. Как только ресурсы, выделенные датасайентистам, оказались у них в руках, дальше наступает магия, которая остается за периметром данной статьи. Мы намеренно не касаемся слоя пользовательских приложения и сервисов ИИ. Эта необъятная часть мира AI/ML, который требует отдельного цикла статей.

0

Комментарии 0

Авторизуйтесь на платформе, чтобы оставлять комментарии