SRE. Рецепты выживания в продакшене для инженера по надежности. Наталья Савенкова
сломанный баннер, который сломал всю вёрстку
Да там куча вариантов.
Проблема в том, что уведомления о срабатывании мониторинга получает дежурный инженер. При этом невозможно обеспечить всю команду дежурных одинаковым сознанием и контекстом. Как-то раз при срабатывании мониторинга диагностика у дежурного заняла два часа, вместо ожидаемых пяти минут, потому что он не знал всей информации и как действовать.
По итогам разбора этого инцидента мы написали себе инструкцию:
Первичные действия при факапе
– Проблема возможно большая? – оповестить руководителя, действовать по плану ниже
– Проблема очевидно небольшая – начать отсчет 15 минут и действовать по плану ниже
– Установить примерное начало проблемы
– Узнать, когда и какие были релизы
– Узнать, что включали маркетологи
– Узнать в центре координации о релизах смежных сервисов
Если в течение 15 минут проблема не локализована, оповестить руководителя (<номер телефона>). Дальше решение принимает руководитель.
Если нет руководителя звонить старшему менеджеру (<номер телефона>).
Если нет старшего менеджера, звонить вышестоящему руководителю (<номер телефона>).
Важно, что проблема сразу получает статус “критичная”, пока не доказано обратное. Это тоже сделано сознательно по итогам инцидентов, когда проблема была сильно недооценена и в итоге размер ущерба сильно вырос.
60. Знать свои деструкторы в состоянии стресса
Пожалуй, это самый важный совет в этой книге. Как ни крути, а сломанный продакшен и непонимание происходящего это стресс. Психология давно разделила реакции на три варианта: бей, беги и замри.
Реакция “бей” во время инцидента может проявлятся как набор хаотичных действий, ведущих к ещё большим разрушениям. Лучше немного подождать, пока отпустит.
В состоянии “беги” человек может начать игнорировать всё происходящее вокруг, отключить телефон и вообще уйти куда-то. В этом случае можно начать работу с инцидентом с каких-то несвязанных действий, типа сходить налить чаю.
Реакция “замри” проявляется оцепенением, пустотой в мыслях и действиях. Здесь помогут чек-листы по первичным действиям в инциденте, чтобы начать делать хоть что-то, вовлекая себя в процесс.
Любой инцидент это стресс. Наблюдайте за собой, изучайте свою реакцию, проводите анализ собственных действий. Сформируйте себе личный чек-лист действий при инциденте, который будет помогать лично вам максимально выйти из автоматической реакции в продуктивное состояние. В чек-листе могут быть, например, такие действия:
– поставить таймер на 30 секунд, ничего не делать, дышать
– написать в блокноте все действия, которые хочется предпринять
– встать и пройтись быстро по коридору
– написать в блокноте все действия, которые необходимо сделать прямо сейчас
– достать чек-лист оповещения и диагностики
и