SRE. Рецепты выживания в продакшене для инженера по надежности. Наталья Савенкова

SRE. Рецепты выживания в продакшене для инженера по надежности - Наталья Савенкова


Скачать книгу
сломанный баннер, который сломал всю вёрстку

      Да там куча вариантов.

      Проблема в том, что уведомления о срабатывании мониторинга получает дежурный инженер. При этом невозможно обеспечить всю команду дежурных одинаковым сознанием и контекстом. Как-то раз при срабатывании мониторинга диагностика у дежурного заняла два часа, вместо ожидаемых пяти минут, потому что он не знал всей информации и как действовать.

      По итогам разбора этого инцидента мы написали себе инструкцию:

      Первичные действия при факапе

      – Проблема возможно большая? – оповестить руководителя, действовать по плану ниже

      – Проблема очевидно небольшая – начать отсчет 15 минут и действовать по плану ниже

      – Установить примерное начало проблемы

      – Узнать, когда и какие были релизы

      – Узнать, что включали маркетологи

      – Узнать в центре координации о релизах смежных сервисов

      Если в течение 15 минут проблема не локализована, оповестить руководителя (<номер телефона>). Дальше решение принимает руководитель.

      Если нет руководителя звонить старшему менеджеру (<номер телефона>).

      Если нет старшего менеджера, звонить вышестоящему руководителю (<номер телефона>).

      Важно, что проблема сразу получает статус “критичная”, пока не доказано обратное. Это тоже сделано сознательно по итогам инцидентов, когда проблема была сильно недооценена и в итоге размер ущерба сильно вырос.

      60. Знать свои деструкторы в состоянии стресса

      Пожалуй, это самый важный совет в этой книге. Как ни крути, а сломанный продакшен и непонимание происходящего это стресс. Психология давно разделила реакции на три варианта: бей, беги и замри.

      Реакция “бей” во время инцидента может проявлятся как набор хаотичных действий, ведущих к ещё большим разрушениям. Лучше немного подождать, пока отпустит.

      В состоянии “беги” человек может начать игнорировать всё происходящее вокруг, отключить телефон и вообще уйти куда-то. В этом случае можно начать работу с инцидентом с каких-то несвязанных действий, типа сходить налить чаю.

      Реакция “замри” проявляется оцепенением, пустотой в мыслях и действиях. Здесь помогут чек-листы по первичным действиям в инциденте, чтобы начать делать хоть что-то, вовлекая себя в процесс.

      Любой инцидент это стресс. Наблюдайте за собой, изучайте свою реакцию, проводите анализ собственных действий. Сформируйте себе личный чек-лист действий при инциденте, который будет помогать лично вам максимально выйти из автоматической реакции в продуктивное состояние. В чек-листе могут быть, например, такие действия:

      – поставить таймер на 30 секунд, ничего не делать, дышать

      – написать в блокноте все действия, которые хочется предпринять

      – встать и пройтись быстро по коридору

      – написать в блокноте все действия, которые необходимо сделать прямо сейчас

      – достать чек-лист оповещения и диагностики

      и


Скачать книгу