Главная » Сервисы, которые работают для вас

Prometheus: всевидящее око инфраструктуры

Комплексная система наблюдения за инфраструктурой

1 минута · 158 слов · Potato Energy Team, ponfertato | Переводы:

🇬🇧

Оглавление

Мониторинговая платформа 📊
Система алертинга 🚨

Почему это важно?

Мониторинговая платформа 📊

Назначение
Круглосуточный контроль ключевых показателей:

Доступность сервисов (HTTP/ICMP/DNS)
Использование ресурсов (CPU/RAM/Диск)
Аномальная активность
SLA выполнения

Техническая реализация

Сбор метрик: 20s интервал
Хранение: 30 дней ретеншена
Пробы: Blackbox для 8 типов проверок
Экспортеры: Node, cAdvisor, ASF, HA

Безопасность и доступ

Dashboard: potatoenergy.ru/prometheus (группа dev)
Оповещения: Discord/Telegram для критических инцидентов
Шифрование: TLS для всех экспортеров
Аудит: Подпись метрик

Особенности

Автоматическое обнаружение аномалий
Кастомные дашборды Grafana
Интеграция с 15+ источниками данных
Система эскалации инцидентов

Система алертинга 🚨

Принципы работы

200+ предустановленных правил для:
- Доступности сервисов
- Порогов использования ресурсов
- Аномалий сетевого трафика
- Ошибок приложений
Многоуровневая маршрутизация:

route:
  receiver: grafana
  routes:
    - match: severity=critical
      receivers: [discord, telegram]

Нотификации только для группы dev:

Discord: Канал #infra-alerts
Telegram: Приватный канал с ботом
Эскалация через 30 минут без подтверждения

Почему это важно?

Проактивное обнаружение проблем до влияния на пользователей
Единая точка истины для анализа инцидентов
Автоматизированная документация через метки
Оптимизация ресурсов через исторические данные

Все не критичные алерты обрабатываются в рабочее время проекта.