Мониторинговая платформа 📊
Назначение
Круглосуточный контроль ключевых показателей:
- Доступность сервисов (HTTP/ICMP/DNS)
- Использование ресурсов (CPU/RAM/Диск)
- Аномальная активность
- SLA выполнения
Техническая реализация
- Сбор метрик: 20s интервал
- Хранение: 30 дней ретеншена
- Пробы: Blackbox для 8 типов проверок
- Экспортеры: Node, cAdvisor, ASF, HA
Безопасность и доступ
- Dashboard:
potatoenergy.ru/prometheus
(группаdev
) - Оповещения: Discord/Telegram для критических инцидентов
- Шифрование: TLS для всех экспортеров
- Аудит: Подпись метрик
Особенности
- Автоматическое обнаружение аномалий
- Кастомные дашборды Grafana
- Интеграция с 15+ источниками данных
- Система эскалации инцидентов
Система алертинга 🚨
Принципы работы
-
200+ предустановленных правил для:
- Доступности сервисов
- Порогов использования ресурсов
- Аномалий сетевого трафика
- Ошибок приложений
-
Многоуровневая маршрутизация:
route:
receiver: grafana
routes:
- match: severity=critical
receivers: [discord, telegram]
- Нотификации только для группы
dev
:
- Discord: Канал #infra-alerts
- Telegram: Приватный канал с ботом
- Эскалация через 30 минут без подтверждения
Почему это важно?
- Проактивное обнаружение проблем до влияния на пользователей
- Единая точка истины для анализа инцидентов
- Автоматизированная документация через метки
- Оптимизация ресурсов через исторические данные
Все не критичные алерты обрабатываются в рабочее время проекта.