Как быстро найти причины сбоев и предотвратить отказ сервисов? Рассказала команда GMonit

Как быстро найти причины сбоев и предотвратить отказ сервисов? Рассказала команда GMonit
На онлайн-встрече обсудили, как с помощью observability платформы можно оперативно реагировать на возникающие ошибки и свести к минимуму время простоя ПО.
Россия

17 апреля 2025 года команда GMonit провела технический вебинар «Как расследовать ИТ-инциденты с GMonit — метрики сами подскажут ответ», в ходе которого эксперты обсудили, как определить источник и масштаб сбоев, выстроить непрерывное наблюдение за состоянием систем и минимизировать время простоя программ.

Юрий Махоткин, тимлид разработки GMonit, в рамках live demo разобрал кейс устранения инцидента в инфраструктуре с помощью observability платформы. Зрители трансляции получили практические рекомендации по оптимизации процессов и повышению устойчивости ПО. В рамках этой темы обсудили структуры «бабочки» и «рыбы» — визуальные и логические модели, которые помогают упорядочивать информацию о сбоях, выявлять корневые причины ошибок и выстраивать систему защиты от повторных нарушений.

Спикер показал методику расследования инцидентов — от автоматического детектирования проблем через алерты до глубокого мониторинга с использованием данных телеметрии. Участники узнали, как эффективно идентифицировать источник ошибок. Также специалист продемонстрировал ключевые графики и метрики, отражающие поведение программ:

  • время недоступности (downtime);
  • график количества ошибок (error rate);
  • среднее время отклика приложения (response time) на уровне транзакций и вызовов сервисов;
  • метрики производительности (performance metrics);
  • нагрузка на базу данных со стороны приложения (DB query rate/latency);
  • пример трассировки (tracing) обработки конкретного запроса — для анализа цепочки вызовов и выявления узких мест.

В заключение Юрий рассказал про настройку полезного алертинга и детектирование аномалий с ИИ в GMonit. Благодаря методам Machine Learning бизнес может предсказывать потенциальные риски и заранее принимать меры для защиты критичных сервисов. После — спикер провел сессию вопросов и ответов.

Предлагаем к просмотру видеозапись выступления:

Источник: gmonit.ru/blog/it-incidents 

09:01
1317
RSS
Нет комментариев. Ваш будет первым!

Новости

В «СёрчИнформ КИБ» интегрирован ИИ-модуль для анализа инцидентов ГК «ЭОС» запускает акцию по бесплатной миграции на импортонезависимую версию АИС «МФЦ Дело» Обучение инженеров от МТС и НИУ ВШЭ: новые возможности для студентов ИИ в DLP: ожидания и реальность

В «СёрчИнформ КИБ» интегрирован ИИ-модуль для анализа инцидентов


Новый инструмент определяет контекст переписки и распознает скрытые признаки нарушений. 23 часа назад
В «СёрчИнформ КИБ» интегрирован ИИ-модуль для анализа инцидентов
В «СёрчИнформ КИБ» интегрирован ИИ-модуль для анализа инцидентов
ГК «ЭОС» запускает акцию по бесплатной миграции на импортонезависимую версию АИС «МФЦ Дело»
ГК «ЭОС» запускает акцию по бесплатной миграции на импортонезависимую версию АИС «МФЦ Дело»
Обучение инженеров от МТС и НИУ ВШЭ: новые возможности для студентов
Обучение инженеров от МТС и НИУ ВШЭ: новые возможности для студентов
ИИ в DLP: ожидания и реальность
ИИ в DLP: ожидания и реальность