По данным Research Nester, мировой рынок ИИ-инфраструктуры в 2024 году составил 45,97 млрд долларов, и до 2037 года будет расти со среднегодовым темпом 28,7%. Рынок двигает вперед разработка все более мощных, производительных чипов и процессоров, необходимых для сложных вычислений. ИИ-модели становятся быстрее и «умнее», и их обучение требует соответствующего оборудования и данных.
Также драйвером роста является развитие новых инструментов и систем ИИ. По данным исследовательской компании J’son & Partners Consulting, российский рынок высокопроизводительных серверов для ИИ к 2027 году составит 83 млрд руб. Показательно, что почти все отечественные создатели высокопроизводительных серверов, участвовавшие в опросе компании, заявили, что работают над оборудованием, которое будет совместимо с ИИ-ускорителями.
Другая важная тенденция состоит в том, что компании предъявляют все более высокий спрос на комплексные цифровые решения для управления ИИ-ресурсами, а они доступны прежде всего в рамках комплексной ИИ-инфраструктуры, которая остается относительно новым явлением на ИТ-рынке и все еще вызывает у компаний вопросы.
Прежде чем говорить об ИИ-инфраструктуре, стоит уделить внимание определению базовых терминов.
Искусственный интеллект (Artificial Intelligence, AI, ИИ) — это технология, благодаря которой машины имитируют мышление человека и решают задачи, ранее посильные только живым людям. ИИ-модели, в сочетании с другими технологиями, такими как умные датчики, элементы интернета вещей, роботы, помогают автоматизировать банковский скоринг, клиентский сервис, исследовательскую работу и множество других процессов в бизнесе, социальной жизни, науке. Более того: так как ИИ способен учиться (для этого используется машинное обучение), то он решает все более сложные задачи, которые изначально недоступны человеку, так как сопряжены с необходимостью различать и классифицировать огромные объемы данных.
Машинное обучение (Machine Learning, ML) — это область ИИ, которая использует данные и алгоритмы обработки в процессе обучения, в результате которого точность ответов повышается. Благодаря ML, ИИ-модели умеют делать прогнозы, заниматься предиктивной аналитикой, классифицировать информацию, генерировать контент и выполнять другие задачи. При этом процесс постоянного дообучения больших языковых моделей (Large Language Model, LLM) позволяет сокращать расхождения между оценками модели и известными примерами. Образно говоря, обучение ИИ можно сравнить с формированием новых нейронных клеток в мозге человека.
Инфраструктура искусственного интеллекта (ИИ-инфраструктура) — это термин, который относится к оборудованию и программному обеспечению, необходимым для создания и развертывания приложений и решений на базе ИИ. Инфраструктура ИИ позволяет разработчикам эффективно создавать и развертывать приложения ИИ и машинного обучения, такие как чат-боты, распознавание лиц и речи, компьютерное зрение, автоматизация рутинных задач, в том числе с использованием различных агентов (Agentic AI) и другие. Для повышения эффективности бизнес-процессов с помощью ИИ предприятиям всех размеров и из самых разных отраслей необходимо сначала построить ИИ-инфраструктуру.
По мере того, как компании приступают к внедрению ИИ, становится очевидно: традиционная ИТ-инфраструктура для этого не подходит. ИИ требует принципиально иного подхода.
Первое отличие ИИ-инфраструктуры от ИТ-инфраструктуры — для задач ИИ нужны огромные вычислительные мощности. Обеспечить их можно, используя графические процессоры (GPU), а не обычные центральные процессоры (CPU). Серверы с GPU-картами — чаще всего производства компании NVIDIA — дают возможность параллельной обработки данных и ускоряют матричные и векторные вычисления, которые распространены в задачах ИИ.
Разницу легко понять на аналогии. Представьте, что нужно обучить языковую модель — типичная задача для ИИ. «Умный профессор» (CPU) будет решать ее в одиночку, шаг за шагом, последовательно перебирая данные. Это займет неделю. А теперь представьте «толпу школьников» (GPU). Каждый школьник может взять крошечную часть задачи и решить ее одновременно со всеми остальными. Благодаря такой массовой параллельной работе та же самая задача будет выполнена за считанные минуты. Почему так происходит?
Второе ключевое отличие — программный стек. ИИ-инфраструктура требует не просто программ, а специализированных инструментов, которые умеют управлять «толпой школьников» (GPU) и координировать их работу с «профессором» (CPU). Программный стек ИИ-инфраструктуры включает:
Надеюсь, что теперь, благодаря этой аналогии с профессором и толпой школьников, специфика ИИ-инфраструктуры стала вам чуточку понятнее.
Помимо разработки передовых приложений для клиентов, компании, инвестирующие в ИИ-инфраструктуру, обычно видят значительные улучшения в своих рабочих процессах. Ниже наиболее распространенные преимуществ, которые могут ожидать предприятия, развивающие инфраструктуру под ИИ:
Создание эффективной инфраструктуры для разработки, обучения и внедрения искусственного интеллекта — задача, требующая тщательной проработки и стратегического подхода. Рассмотрим ключевые этапы и нюансы, связанные с аппаратной и программной частями.
1. Определение целей, масштаба и бюджета
Прежде всего, необходимо понять, каких результатов компания ожидает от ИИ. Какие задачи будут решаться с помощью моделей? Важно оценить масштаб проекта: достаточно ли одного сервера или потребуется «многомашинное» обучение с десятками GPU для обработки больших данных? Это определит необходимую вычислительную мощность и затраты. Бюджет также играет ключевую роль. Он должен включать как капитальные вложения (аппаратное и программное обеспечение), так и операционные расходы (энергия, поддержка, облачные сервисы). Недооценка масштаба или бюджета может привести к задержкам и финансовым проблемам.
2. Выбор стратегии размещения: облако, on-premise или гибрид
Выбор стратегии размещения инфраструктуры — один из самых важных шагов. Рассмотрим три основных варианта:
3. Выбор аппаратных решений
Если вы выбрали стратегию on-premise или гибрид, необходимо тщательно подойти к выбору аппаратных компонентов. Ключевым элементом для обучения ИИ являются GPU-серверы. Важно учитывать требования к производительности, энергоэффективности и доступности оборудования.
Сетевое оборудование, системы хранения данных и охлаждение также играют важную роль. Необходимо обеспечить высокую скорость передачи данных между серверами и эффективное охлаждение мощных GPU.
4. Планирование размещения в ЦОД
При размещении серверов в ЦОД необходимо учитывать энергопотребление, охлаждение и сетевую инфраструктуру. Мощные GPU-серверы потребляют значительное количество энергии, поэтому важно правильно рассчитать нагрузку на стойку и обеспечить эффективное охлаждение. Также необходимо точно рассчитать длины и количество кабелей для интерконнекта между серверами и коммутаторами. Физическая схема размещения должна быть тщательно продумана.
5. Выбор программных решений и платформ
Выбор программного обеспечения — не менее важный этап. Базовый стек включает виртуализацию, ОС, СУБД, DNS, LDAP/AD, системы мониторинга и логирования. Для задач, связанных с ИИ, потребуются специализированные фреймворки (PyTorch, TensorFlow), MLOps-платформы (MLflow, Kubeflow) и инструменты управления данными.
Альтернативой может стать использование программно-аппаратных комплексов (ПАК), которые включают преднастроенное железо и ПО. Это может быть быстрым и удобным решением, но требует учета совместимости и поддержки.
6. Организация управления и предоставления ресурсов
Эффективное управление ресурсами — залог успешной работы ИИ-инфраструктуры. Потребности в ресурсах могут различаться в зависимости от задач: обучение требует мощных GPU, а инференс может работать на менее производительных серверах. Существует несколько моделей предоставления ресурсов:
7. Обеспечение информационной безопасности
Защита данных — ключевой аспект при создании ИИ-инфраструктуры. Необходимо внедрить организационные и технические меры защиты на всех уровнях. Особое внимание следует уделить защите персональных данных в соответствии с законодательством. Управление уязвимостями, контроль доступа, мониторинг угроз и резервное копирование — все это важные элементы информационной безопасности.
8. Запуск, поддержка и эксплуатация
После завершения всех подготовительных этапов необходимо запустить инфраструктуру и обеспечить ее поддержку. Важно подготовить команду инженеров и разработчиков, организовать процессы обновления ПО и прошивок оборудования, а также настроить мониторинг производительности и доступности ресурсов. Определение уровней технической поддержки также играет важную роль. Это может быть внутренняя команда или сотрудничество с поставщиками.
Используя этот чек-лист, компания сможет выстроить ИИ-инфраструктуру с учетом своих потребностей и целей. Как только ресурсы, выделенные датасайентистам, оказались у них в руках, дальше наступает магия, которая остается за периметром данной статьи. Мы намеренно не касаемся слоя пользовательских приложения и сервисов ИИ. Эта необъятная часть мира AI/ML, который требует отдельного цикла статей.
Комментарии 0