Мониторинговая платформа 📊

Назначение
Круглосуточный контроль ключевых показателей:

  • Доступность сервисов (HTTP/ICMP/DNS)
  • Использование ресурсов (CPU/RAM/Диск)
  • Аномальная активность
  • SLA выполнения

Техническая реализация

  • Сбор метрик: 20s интервал
  • Хранение: 30 дней ретеншена
  • Пробы: Blackbox для 8 типов проверок
  • Экспортеры: Node, cAdvisor, ASF, HA

Безопасность и доступ

  • Dashboard: potatoenergy.ru/prometheus (группа dev)
  • Оповещения: Discord/Telegram для критических инцидентов
  • Шифрование: TLS для всех экспортеров
  • Аудит: Подпись метрик

Особенности

  • Автоматическое обнаружение аномалий
  • Кастомные дашборды Grafana
  • Интеграция с 15+ источниками данных
  • Система эскалации инцидентов

Система алертинга 🚨

Принципы работы

  1. 200+ предустановленных правил для:

    • Доступности сервисов
    • Порогов использования ресурсов
    • Аномалий сетевого трафика
    • Ошибок приложений
  2. Многоуровневая маршрутизация:

route:
  receiver: grafana
  routes:
    - match: severity=critical
      receivers: [discord, telegram]
  1. Нотификации только для группы dev:
  • Discord: Канал #infra-alerts
  • Telegram: Приватный канал с ботом
  • Эскалация через 30 минут без подтверждения

Почему это важно?

  1. Проактивное обнаружение проблем до влияния на пользователей
  2. Единая точка истины для анализа инцидентов
  3. Автоматизированная документация через метки
  4. Оптимизация ресурсов через исторические данные

Все не критичные алерты обрабатываются в рабочее время проекта.