Сравнение решений по мониторингу

Базовая инфраструктура

Опубликовано 03.12.2024 • Обновлено 01.10.2025

Сравнение решений по мониторингу

1216

Содержание

Сравнение решений по мониторингу

Базовая инфраструктура

Опубликовано 03.12.2024 • Обновлено 01.10.2025

1216

Краткий обзор рынка

В последние годы рынок решений по реализации и оптимизации ИТ-инфраструктуры заметно вырос. Однако многие российские решения сталкиваются с недостатком качественных подходов к мониторингу систем и приложений. Разработчики стремятся догнать западные аналоги по функциональности. Но при этом нередко упускают из виду важность обеспечения надежности продуктов. Возникает потребность в новых методах мониторинга, которые смогут эффективно отслеживать современные решения.

Сегодня выделяется несколько ключевых трендов, которые влияют на рынок мониторинга.

Переход на российские ИТ-решения

Компании с запросом на поддержку и экспертизу вендора переходят с проприетарных зарубежных решений и продуктов на базе СПО к российским разработкам.

Отечественных решений по мониторингу становится больше. Каждая система имеет свои плюсы и минусы. Бизнесу сложнее ориентироваться на рынке и мигрировать на новые решения, поэтому к их выбору подходят тщательнее.

Выделение вспомогательных типов телеметрии

Основные три типа телеметрии (метрики, логи, трейсы) дополняются вспомогательными. Например:

«Изменения» (changes) показывают, в какое время и какие изменения в конфигурациях могли привести к сбоям в работе ИС. Возможность корреляции данных основных типов телеметрии с событиями, которые фиксируют «изменения» в отслеживаемых системах, обеспечивает более совершенный уровень наблюдаемости;
«Непрерывное профилирование» (continuous profiling) — предоставляет информацию по использованию ресурсов на уровне кода.

Уменьшение количества используемых типов систем мониторинга

Цель — упростить архитектуру системы мониторинга, уменьшить лицензионную нагрузку и сократить затраты на поддержку.

Meta и Cross-мониторинг

У компаний все чаще возникает потребность отслеживать работу компонентов самих систем мониторинга, которые обеспечивают мониторинг важных ИС.

Повышение безопасности

Большинство вендоров систем мониторинга ускоряют обновление и доработку продуктов при выявлении критических уязвимостей.

Для проверки кода на уязвимости в Open Source решениях привлекаются внешние специализированные компании.

Рост объема данных различных типов телеметрии

Объем телеметрических данных увеличивается. Это требует постоянного поиска новых подходов к их фильтрации, хранению, обработке и эффективной оценке.

Заимствование функций между различными классами систем

В ряд систем мониторинга интегрируются функции систем анализа информационной безопасности, поскольку инциденты информационной безопасности могут влиять на надежность ИС.

Развитие Low-code/No-code

Автоматизация процессов обработки мониторинговых данных, пользовательских действий и других операций. Low-code/No-code подходы оптимизируют с помощью функций ИИ.

Развитие Observability-подхода (наблюдаемость)

Компании не просто внедряют новые инструменты, а меняют процессы и подход к мониторингу. О наблюдаемости думают уже на этапе разработки. Системы мониторинга превращаются в платформы для анализа инфраструктуры, приложений и безопасности.

Выделение основных элементов построения наблюдаемости

Растет потребность в решениях, которые используют элементы:

ClickHouse;
OpenTelemetry;
eBPF.

AI-powered Observability

Вендоры платформ наблюдаемости начинают активнее внедрять ИИ-функции, чтобы помочь компаниям ускорить процесс обработки телеметрии, получить более быстрый результат и сократить издержки при работе с платформами наблюдаемости.

Улучшаются функции и алгоритмы выявления нетипичных отклонений в работе ИТ-систем, анализа первопричин сбоев, корреляции технических и бизнес-метрик, прогнозирования надежности работы или использования ресурсов.

AI Observability

Мониторинг и оптимизация работы ИИ-приложений становится важным процессом. Платформы наблюдаемости начинают предоставлять функции для отслеживания и оптимизации работы таких приложений.

ИИ-ассистенты

ИИ-ассистенты начинают включать в базовую функциональность систем наблюдаемости с целью оптимизации задач:

Формирование запросов для поиска и анализа данных;
Подготовка сценариев обработки, фильтрации и обогащении данных;
Визуализация данных (помощь в создание новых дашбородов и так далее);
Ускоренный поиск проблем и формирование предложений по их разрешению за счет анализа событий и их контекста.

Сегодня руководители хотят видеть работу ИТ-сервисов и бизнес-приложений в компактном и удобном формате. Это ускоряет принятие решений, улучшает точность прогнозов, повышает надежность и снижает расходы на поддержку инфраструктуры.

Решения по мониторингу

Вендор	Решение	Год основания	Выручка 2024, млн руб.	Входит в Реестр ПО	AI/ML	SaaS	Подход
Пруфтек ИТ	Artimate	2024	637				Event Intelligence Solutions
Группа Астра	Астра Мониторинг	2024	17 200 (по Группе Астра)				Monitoring
ИНИТИ	Initi Solo	2007	260				Monitoring
Glaber	Glaber	2018	7,6				Monitoring
Tibbo Systems	AggreGate Network Manager (NM)	2008	н/д				Monitoring
UDV Group	UDV ITM	2018	н/д				Monitoring
Лаборатория Числитель	Пульт	2023	264				Monitoring
РОССИННО	Центральный Пульт (Saymon)	2012	100				Monitoring
VolgaBlob	Smart Monitor	2014	514				Monitoring
Монк Диджитал Лаб	Monq	2019	64				Monitoring
НТЦ Веллинк	WiSLA	2008	138				Monitoring
Prometheus	Prometheus	2012	н/д				Monitoring
Victoria Metrics	VictoriaMetrics	2018	н/д				Monitoring
Zabbix SIA	Zabbix	2005	0,066				Monitoring
Геларм	Gelarm Infrastructure Management System (GIMS)	2017	164				Monitoring
РР-ТЕХ	ИндексЛог	2023	297				Observability
Рускомтехнологии	Ключ-АСТРОМ	2014	808				Observability
Proto Group	Proto Observability Platform	2014	23				Observability
ХайперСофтЛаб	GMonit	2021	112				Observability
Т-Банк	Sage Observability	2019	33 000 (По ООО ТЦР)				Observability
Elastic NV	Elastic Stack	2012	102 900				Observability
Grafana	Grafana Stack	2014	н/д				Observability

ИИ в системах мониторинга и наблюдаемости

Системы мониторинга и платформы наблюдаемости обладают обширной функциональностью для анализа работы ИС. Но иногда требуют значительных усилий, чтобы детально оценить надежность систем, построенных на микросервисных или монолитных архитектурах.

Для оценки надежности используются различные типы телеметрии: логи, метрики, трейсы, которые нужно проанализировать и в некоторых случаях найти первопричину сбоя. Есть также ряд рутинных задач: создание правил уведомлений, создание новых дашбордов для бизнеса или технических специалистов, анализ работы ИС с использованием запросов и других операций. Многие из этих операций можно автоматизировать с помощью ИИ. Это позволяет сократить простои ИС и снизить затраты на обеспечение высокой надежности их работы.

Попытки использования машинного обучения и искусственного интеллекта в этой области начались давно. Пример — методика управления ИТ-инфраструктурой AIOps, появившаяся около 10 лет назад. Она применяется для автоматизации задач ИТ-поддержки и улучшения ИТ-процессов с помощью ИИ, но в итоге эффективность концепции не была доказана.

Многие аналитические агентства до сих пор используют понятие AIOps (Forrester), но, например, Gartner переименовал такие платформы в решения для интеллектуального анализа событий (Event Intelligence Solutions), где также используется ИИ, но для решения более узкоспециализированных задач.

В настоящее время платформы наблюдаемости получают все больше ИИ-функций в таких направлениях:

Предиктивный ИИ (предсказание аномалий, прогнозирование использования ресурсов и других параметров);
Причинный ИИ (анализ телеметрии и автоматизация поиска первопричин сбоев, определение аномалий);
Генеративный ИИ (использование естественного языка для формирования новых запросов, специфичных для платформ, автоматизация создания новых дашбордов с помощью ИИ-ассистентов на базе LLM).

Наше мнение

Алексей Яковлев

Руководитель практики мониторинга ИТ-инфраструктуры и приложений

Не всегда используемые системы мониторинга готовы эффективно отслеживать доступность, производительность ИТ-систем и давать нужный эффект от их внедрения. Поэтому в приоритете проекты:

Миграции, консолидации и расширения функций существующих систем мониторинга;
Повышения надежности ИС за счет лучшего понимания их архитектуры, работоспособности, производительности, конфигурации и безопасности;
Обоснования экономического эффекта от перехода на новые решения.

Основной приоритет бизнеса — понимание надежности работы всех ИС и бизнес-приложений в компании на базе согласованных SLO/SLA. Еще более важно понимать состояние ресурсов компании и их влияние на пользователей и на финансовые показатели.

Для решения всех этих задач мы видим заинтересованность в совместном использовании как систем мониторинга, так и платформ наблюдаемости, которые в данный момент решают разные задачи.

Мониторинг нацелен на понимание состояния систем с помощью предопределенного набора правил мониторинга и больше подходит для статических инфраструктур;
Наблюдаемость выступает инструментом для анализа телеметрии и быстрого поиска, устранения проблем в работе ИС без заранее предопределенного набора правил мониторинга — нацелена на динамические инфраструктуры.

Вендоры в свою очередь расширяют функциональность своих систем для оптимизации и упрощения работы, чтобы компании, использующие их решения, могли быстрее получить конечный результат. В том числе это достигается за счет функций на основе ИИ. Особенно это касается платформ наблюдаемости, где объем данных, типов телеметрии и их связей больше, чем в системах мониторинга. Обработать такой объем информации и сделать быстрый анализ без вспомогательной автоматизации и новых подходов невозможно.

Также видим заинтересованность в создании или адаптации существующих РСМ для ключевых ИС, а также их совокупного представления в единой консоли для более оперативного принятия решений — подход обычно используется в системах мониторинга.

Для ускорения поиска проблем и анализа влияния изменений на надежность работы ИС для динамических инфраструктур есть запрос на построение карт сервисов/приложений (Service Map / Application Map) — одна из основных функций платформ наблюдаемости, которая реализуется на базе анализа распределенной трассировки.

Пример представления карты сервисов в платформах наблюдаемости

Дополнительно следует сказать о решениях класса DCIM, которые отчасти закрывают вопросы мониторинга аппаратной составляющей ЦОД и решают вопросы сокращения расходов на эксплуатацию ЦОД:

Например, DCImanager (Группа Астра) и Smart DCIM (ЦОДУМ) имеют готовые шаблоны мониторинга с помощью протоколов Redfish, IPMI, SNMP и других, и имеют поддержку со стороны производителей оборудования;

СДИ Базис имеет широкие возможности технического учета ресурсов ЦОД, включая телеком и инженерную инфраструктуру, а также имеет эксклюзивные возможности по визуализации объектов ЦОД и имеет библиотеку цифровых моделей для более чем 80 тыс. типов оборудования (фасады оборудования, энергопотребление, вес, габариты, тепловыделение, порты, слоты, совместимые модули и другие параметры).

Мы предполагаем, что решения класса DCIM могут быть использованы совместно с системами мониторинга для повышения надежности сервисов и снижения затрат.

Решения мы подразделяем на две группы в зависимости от используемого подхода (Monitoring/Observability).

Monitoring

Zabbix
Glaber
Пульт
UDV ITM
Monq
AggreGate Network Manager (NM)
Центральный Пульт (Saymon)
Initi Solo
Smart Monitor

Решения нацелены на опредление состояния систем с помощью предопределенного набора правил мониторинга.

Они позволяют обнаруживать известный набор режимов сбоев (known-unknowns), то есть нацелены на системы, которые достаточно статичны, и мы можем предугадать их поведение.

Как правило, используется для мониторинга нединамических инфраструктур.

Observability

Ключ-АСТРОМ
Proto Observability Platform
GMonit
ИндексЛог (Elastic Stack)
Grafana Stack
Астра Мониторинг
Sage Observability

Решения выступают инструментом для анализа телеметрии и быстрого поиска и устранения проблем в работе ИС без заранее предопределенного набора правил мониторинга. Они способны выявлять неизвестные заранее сбои (unknown-unknowns), то есть факторы, о которых в данный момент мы даже не подозреваем, но которые могут повлиять на надежность работы ИС.

Решения нацелены на более глубокий мониторинг
ПО и имеют функции профилирования кода, трассировки, мониторинга
действий реальных пользователей, автоматического определения первопричин сбоев. Потребность в решениях возникает, когда простой бизнес-приложения может значительно повлиять на финансовые показатели и создать репутационные риски.

Системы на данный момент дополняют решения инфраструктурного мониторинга, но в некоторых сценариях перекрывают их функциональность, позволяя в единой консоли видеть как показатели работы приложения, так и ИТ-инфраструктуры.

Поскольку данные решения нацелены на анализ большого потока данных, в таких решениях наиболее часто начинают быть востребованы ИИ-функции.

Альтернативой Zabbix при миграции на российские системы мониторинга выступают в настоящее время три решения: Glaber, Пульт (Лаборатория Числитель), UDV ITM (UDV Group).

Все решения находятся в Реестре отечественного ПО, соответствуют концепции импортозамещения и сохраняют привычный для конечных пользователей интерфейс.

Glaber используется в ряде крупных компаний, есть кейсы, где Glaber функционирует в конфигурации высокой доступности между тремя дата-центрами с RTT около 80 мс.

Благодаря использованию БД ClickHouse для исторических данных решение показывает более высокую производительность в сравнении с Zabbix. Главная особенность продукта — акцент на производительности и минимизации обращений к СУБД.

Пульт — решение, похожее по архитектуре на Glaber, и использует БД ClickHouse для исторических данных. Но вендор идет по пути создания «ответвления» Zabbix, не изменяя внутренние функции, а расширяя их за счет внешних модулей, что обеспечивает более стабильную работу и лучшую совместимость.

Сейчас компании могут получить дополнительные функции, такие как:

Расширенная отчетность;
Готовые шаблоны мониторинга с дальнейшей поддержкой от вендора (например, для Astra Linux или РЕД ОС, платформы виртуализации zVirt и других);
Модуль визуализации данных, аналог Grafana, где уже есть возможность работы с такими источниками данных, как Пульт, Zabbix, Prometheus, VictoriaMetrics и другими.

Пульт — полностью коммерческий продукт, и для его использования требуется приобретение лицензий как на компоненты системы мониторинга, так и на подключаемые объекты мониторинга. Находится в процессе получения сертификата ФСТЭК по шестому уровню доверия.

UDV ITM сертифицирован ФСТЭК и сделан с акцентом на безопасность. В дополнение к стандартной функциональности Zabbix в нем есть модуль визуализации (ITM-VM), который объединяет все экземпляры решения в единой консоли.

Платформа Центральный Пульт (Saymon) позволяет строить не только системы мониторинга, но и специализированные системы управления. Решение поддерживает высокий уровень кастомизации. Разработчики платформы готовы участвовать в интеграции с другими системами мониторинга и расширять функциональность продукта.

Saymon имеет функции объединения существующих систем мониторинга в единой консоли. Встроенная CMDB и объектная модель позволяют строить РСМ и использовать машинную обработку данных для выявления аномалий и определения корневых причин сбоя. Имеется подсистема разработки и управления шаблонами мониторинга, где подход похож на тот, который используется в решении от SolarWinds. Это значительно ускоряет процесс постановки новых систем на мониторинг. Решение включает в себя готовые мобильные приложения под iOS и Android. Платформа также может быть расширена с помощью внешних модулей: alertmanager, расширенная визуализация данных, автоматическое обнаружение объектов и так далее. Но есть и ограничения: на данный момент компания не идет в сторону развития системы как платформы наблюдаемости, а также неглубоко проработан вопрос анализа работы приложений.

Астра Мониторинг — платформа наблюдаемости в которой есть готовые модули мониторинга для Astra Linux, ALD Pro, RuPost, RuBackup, Termidesk и тд, где применяются лучшие практики от вендора по мониторингу собственных решений. Платформа имеет более современный технологический стек, чем решения на базе Zabbix. Платформа поддерживает подход IaC, который обеспечивает конфигурацию всей системы через код, и поддерживает eBPF для анализа работы приложений. Развивается в сторону платформы наблюдаемости и поддерживает работу с различными типами телеметрии (логи, метрики, трейсы), RUM, OpenTelemetry. Решение может выступать универсальным инструментом для мониторинга инфраструктурных сервисов и приложений. Немаловажным является использование подхода «единого агента», который значительно автоматизирует подход постановки систем и бизнес приложений на мониторинг. Для минимизации простоев бизнес приложений предоставляет функционал управления инцидентами (on-call менеджмент).

Monq — достаточно популярное решение в крупных компаниях, развивалось как система мониторинга, которая позволяет агрегировать, обрабатывать и анализировать данные с локальных систем мониторинга в единой консоли, предлагая Low-code/No-code подход в автоматизации различных операций. Но в настоящее время решение (версия 9) активноцо начинает замещать функциональность систем мониторинга типа Zabbix, также идет в сторону платформ наблюдаемости и уже заявлена поддержка сбора и анализа распределенной трассировки и непрерывного профилирования. Решению пока не хватает гибкого подхода для анализа данных телеметрии и их связей, построения динамических карт сервисов, поддержки RUM для оптимизации пользовательского опыта, функциональности мониторинга мобильных приложений. В целом, это достаточно зрелое решение, с помощью которого решаются задачи без использования вспомогательных систем мониторинга, что в итоге дает экономический эффект. В Monq 9 также заявлена ИИ-корреляция событий и ИИ-ассистент на базе LLM и обработки естественного языка, который позволит упростить работу инженеров при создании сценариев автоматизации на базе Low-code подхода.

Для динамических инфраструктур (микросервисы, кластеры Kubernetes) предпочтительным вариантом выступали VictoriaMetrics и Prometheus. Некоторые российские системы включают VictoriaMetrics для работы с метриками, но они не заменяют отдельные инсталляции VictoriaMetrics/Prometheus, а используются для расширения внутренних функций систем.

Те, кто активно использует Open Source, редко рассматривают переход на решения вроде Initi Solo и AggreGate Network Manager (Tibbo Systems) из-за высоких затрат на миграцию и переобучение сотрудников. В последнее время Initi Solo также начал двигаться в сторону платформы наблюдаемости, но, несмотря на наличие наработок по распределенной трассировке и непрерывному профилированию, в решении еще не решен вопрос динамической отрисовки карт сервисов (Service Map) для быстрого анализа работы ИС, а данная реализация в основном подходит только для статических инфраструктур.

В части Observability платформ компании предпочитают использовать коробочные решения с акцентом на автоматическую инструментацию кода. Хотя без ручной инструментации практически не обходится, поскольку это два взаимодополняющих механизма сбора телеметрии. До недавнего времени основной отечественной платформой выступал Ключ-АСТРОМ, который представляет «ответвление» решения Dynatrace. Решение использует ИИ для определения аномалий, анализа первопричин сбоев, автоматической адаптации пороговых значений.

К этому классу решений также относятся GMonit, Proto Observability Platform. Те, кому нужна максимальная функциональность, выбирают Ключ-АСТРОМ. Если же требуется быстрее получить экономический эффект, но при этом немного потерять в функциональности, предпочтительны GMonit и Proto Observability Platform.

Компании выбирают Proto Observability Platform благодаря:

Лицензированию: оплата по количеству установленных агентов без привязки к конфигурации сервера. Есть вариант покрытия безлимитного количества серверов;
Технической составляющей: поддержка 300+ технологий по автоматической инструментации приложений, собственная консоль с возможностью интеграции с внешними системами визуализации данных.

Если говорить о GMonit, то здесь есть готовые модули мониторинга 1С, SAP. Решение построено на современном стеке (ClickHouse+Grafana) и имеет все базовые функции платформ наблюдаемости, которые помогают проанализировать работу ИС с использованием ИИ для определения аномалий по ключевым метрикам и событиям, поиска корневых причин сбоев. Также происходит доработка ИИ-ассистента на основе LLM, который может ответить на вопросы по данным мониторинга, дать пояснение по метрикам на дашборде, подсказать дальнейшие действия в случае каких-то инцидентов. Но компании видят некоторые ограничения при выборе:

Обязательное использование внутреннего экземпляра Grafana, причем внешний собственный экземпляр использовать нельзя;
Расчет лицензий с привязкой к количеству ядер CPU и пользователей, которые просматривают веб-сайт.

Отдельно выделяются Sage Observability (ТЦР), Smart Monitor (VolgaBlob), Artimate (Пруфтек ИТ). Sage Observability выступает как система наблюдаемости, которая может собирать и анализировать все основные типы телеметрии из информационных систем компании. Также имеется нативная интеграция с решением FineDog (Т-Банк), которое выступает как инцидент-менеджмент и имеет ИИ-ассистента, предоставляющего быстрый доступ к важной информации в инцидентах из FineDog. Решения Sage Observability и Smart Monitor позиционируются аналогом Splunk и адаптированы к работе с большими объемами данных.

Sage Observability обеспечивает принципы Site Reliability Engineering (SRE):

Определение целей надежности — SLI, SLO, Error Budget;
Возможности построения сервисной модели, модели здоровья и возможности по сбору и анализу событий безопасности.

Решение Smart Monitor объединяет мониторинг:

Бизнес-процессов: профилирование действий пользователей в рамках бизнес-процессов, скоринг и других операций;
Кибербезопасности: антифрод, автоматизированная оценка соответствия нормативным и корпоративным требованиям ИБ (модуль MITRE ATT&CK);
ИТ-инфраструктуры: надежность систем, выявление первопричин сбоев на базе встроенной функциональности построения РСМ.

Также решение Smart Monitor имеет ряд дополнительных модулей, включая модуль работы с распределенной трассировкой и ИИ-ассистента, который можно использовать для написания запросов с помощью естественного языка, что упрощает поиск и анализ данных. Но решение в данный момент не соответствует всем критериям платформ наблюдаемости.

Artimate выступает вспомогательным инструментом для различных систем мониторинга и платформ наблюдаемости. Продукт решает задачу интеллектуального анализа событий (EIS) с помощью ИИ и ML для ускорения и автоматизации обработки событий, что позволяет снизить нагрузку на персонал и сократить время простоя систем.

В некоторых проектах появляется необходимость использования дополнительных BI-систем для визуализации мониторинговых данных. Из российских решений компании выбирают Visiology. Наряду с этим, хотя многие системы имеют встроенные консоли и визуализацию, в качестве универсального решения для визуализации Grafana остается одним из самых востребованных инструментов.

Встроенные ИИ-ассистенты на базе LLM уже могут помочь с формированием запросов с использованием естественного языка, помочь в создании новых дашбордов, дать аналитику по определенной телеметрии и предложить варианты дальнейших действий в случае инцидентов. Но надо понимать, что ИИ-ассистенты, основанные на LLM, предоставляют решения, которые очень сильно зависят от контекста вводных данных и предоставляют ответы, сгенерированные с помощью предсказаний наиболее вероятных сценариев. В настоящее время всегда есть риск получить неверный или неточный результат. С помощью таких возможностей мы можем только переосмыслить работу инженеров, но не заменить их.

В 2025 году некоторые организации концентрируются на тех решениях, в которых присутствуют возможности ИИ. Но, учитывая, что наличие таких возможностей никак не гарантирует получение результата, мы бы рекомендовали не отмечать возможности ИИ, которые выступали бы блокирующими факторами при выборе целевых решений. Сейчас такие возможности выступают как хорошее дополнение.

Комментарии 0

Комментарии под этим материалом доступны только для пользователей с расширенным аккаунтом.

Эксклюзивный контент

Доступ к материалам страницы ограничен и доступен по запросу.

Сравнение решений по мониторингу

Содержание

Сравнение решений по мониторингу

Краткий обзор рынка

Решения по мониторингу

ИИ в системах мониторинга и наблюдаемости

Наше мнение

Алексей Яковлев

Комментарии 0

Эксклюзивный контент

Запрос на расширение аккаунта