| SLI | Измеримый показатель сервиса | Показывает, где пользователь реально чувствует качество | Выбирает latency, availability, error rate или другой сигнал | Мерить то, что легко собрать, а не то, что важно пользователю |
| SLO | Целевой уровень SLI | Помогает договориться о допустимом качестве | Формулирует реалистичную цель и период измерения | Требовать абсолютную доступность без обсуждения цены и риска |
| SLA | Соглашение с последствиями при нарушении | Защищает ожидания клиента и бизнеса | Помогает не провалить SLA через SLO и мониторинг | Путать SLA с внутренней инженерной целью |
| Error Budget | Допустимый запас ошибок внутри SLO | Балансирует скорость релизов и устойчивость | Смотрит burn rate и предлагает замедлить рискованные изменения | Использовать как наказание, а не инструмент договорённости |
| Error Budget Policy | Правила действий при сгорании бюджета | Убирает споры в момент кризиса | Заранее фиксирует, когда стопорить релизы или чинить надёжность | Не согласовать policy с продуктом и разработкой |
| Burn Rate | Скорость расходования error budget | Показывает, насколько быстро команда приближается к нарушению SLO | Использует для приоритета инцидента и алертов | Смотреть только дневную среднюю и пропустить быстрый пожар |
| Golden Signals | Latency, traffic, errors, saturation | Дают базовый взгляд на состояние сервиса | Строит дашборды и алерты вокруг пользовательского риска | Считать четыре сигнала полной observability |
| Observability | Метрики, логи, трассировки, алерты и контекст | Сокращает время понимания проблемы | Связывает сигналы с SLO и инцидентами | Коллекционировать графики без действия |
| Alert Quality | Качество сигнала для on-call | Снижает шум и выгорание | Оставляет алерты с понятным impact и runbook | Будить команду по симптомам без действия |
| Toil | Ручная повторяемая работа без долгосрочной ценности | Съедает инженерное время и растёт вместе с масштабом | Автоматизирует или убирает причину | Героически делать одно и то же руками |
| Runbook | Инструкция восстановления для известной ситуации | Снижает зависимость от памяти конкретного инженера | Пишет безопасные шаги, эскалации и критерии остановки | Сделать runbook без владельца и обновления |
| Playbook | Сценарий действий для класса проблем | Помогает команде действовать согласованно | Описывает роли, коммуникации и ветки решений | Путать playbook с разовой заметкой |
| On-call | Дежурство по production-сервису | Даёт быстрый канал реагирования | Улучшает алерты, эскалации и runbook-и | Строить практику на постоянном героизме |
| Incident Response | Организованное реагирование на сбой | Снижает ущерб и время восстановления | Ведёт факты, роли, коммуникацию и восстановление | Хаотично менять всё подряд без timeline |
| Blameless Postmortem | Разбор инцидента без поиска виноватого | Превращает сбой в улучшение системы | Фиксирует impact, причины и action items | Написать отчёт без изменений после него |
| MTTR | Среднее время восстановления | Показывает скорость возврата сервиса | Снижает через runbook-и, rollback и диагностику | Оптимизировать MTTR и забыть про частоту инцидентов |
| MTTD | Среднее время обнаружения | Показывает, как быстро команда узнаёт о проблеме | Улучшает через SLO monitoring и алерты | Полагаться на жалобы пользователей как главный сигнал |
| Capacity Planning | Планирование мощности под нагрузку | Снижает риск деградации в пиковые периоды | Смотрит тренды, лимиты, очереди и saturation | Покупать запас без понимания bottleneck |
| Canary Release | Постепенный выпуск изменения на часть трафика | Уменьшает риск массового сбоя | Смотрит SLO-сигналы и останавливает rollout | Делать canary без метрик успеха |
| Rollback | Возврат к безопасному состоянию | Сокращает impact неудачного релиза | Заранее описывает критерии и путь отката | Думать об откате только после аварии |