21 марта 2026, 10:27
День SRE на конференции Teх.Диалог


Все, кто так или иначе занимается сопровождением и обслуживанием высоконагруженных систем сталкиваются с отказами. Просто потому что если взять среднее время наработки на отказ условной виртуалки в 500 дней, то при наличии тысячи виртуальных серверов чисто математически сегодня у вас должны упасть два и это если просто ничего не трогать. А мы трогаем. Релизы, работы, рост данных, внешние факторы (такие как подъем нагрузки и отказы внешних сервисов, телеграм, ты читаешь?) стабильности не добавляют.
Как со всем этим жить, подробно и по шагам расскажем на втором дне конференции Teх.Диалог. Собрали для Вас основные лекции и мастер классы по обеспечению и управлению стабильностью:
Начнем как обычно с мониторинга, просто потому что ехать на машине с заклеенной старыми газетами лобовухой некоторое количество непродуктивно. Поэтому для начала погрузимся в принципы наблюдаемости систем, пройдемся по основным метрикам бизнеса, сервисов и инфры, зацепим трейсы, логи и поиск девиаций в них
Продолжим большим блоком работы с инцидентами и расчетом доступности. Поговорим о том, чем инцидент отличается от алерта, как быстро определить степень влияния и организовать работу на инциденте, экономя драгоценные секунды. Что делать когда починили, как и зачем писать постмортем, когда инцидент считается завершенным и сколько минут писать в черную книжечку прода, если по как-ой причине легли не полностью.
Третий блок посвящен техническим приемам работы с доступностью: чем проектирование сложных высокодоступных систем отличается от проектирования обычных сервисов, нужно ли заморачиваться отказоустойчивостью на этапе MVP, какие методы используются для повышения доступности приложения для пользователя в инфраструктуре и коде и как готовится к подъему нагрузки заранее, что бы не падать в самый ответственный момент.
По результату получился плотный, хорошо дополняющий доклады первого дня мастер-класс с практическими примерами и веселыми историями, особенно для тех, кто в эти истории не попадал. Приходите учиться на чужих ошибках и перенимать опыт, который мы для вас кропотливо собирали многие годы работы с высокими нагрузками на сотнях и тысячах инцидентов.
Билеты по ссылке https://techdialogos.ru/
Увидимся!
Читают сейчас

25 минут назад
Разработчик Amazon выявил регрессию в тестовом ядре Linux 7.0, в два раза снижающую эффективность PostgreSQL
Разработчик из Amazon Сальваторе Дипьетро обнаружил регрессию при тестировании СУБД PostgreSQL и компонентов готовившегося к релизу ядра Linux 7.0. Выпуск новой версии ядра Linux, которая будет исполь

1 час назад
Экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны
В НАСА сообщили, что экипаж лунной миссии «Артемида» II на космическом корабле «Орион» преодолел больше половины пути до Луны. В настоящий момент корабль находится приблизительно в 141 тыс. км от Луны

1 час назад
Представлен публике дистрибутив Netrunner 26 на Debian 13 «Trixie» и Linux 6.16
В начале апреля 2026 года разработчик проекта Nitrux Ури Эррера объявил о выпуске и общедоступности сборки Netrunner 26 (кодовое название Twilight), спустя более года после выхода Netrunner 25. Инициа

2 часа назад
Версия библиотеки meshoptimizer 1.1
2 апреля 2026 года разработчик Arseny Kapoulkine (zeux) представил обновление открытой библиотеки meshoptimizer 1.1. Исходный исходник проекта написан на C++ и JavaScript и опубликован на GitHub под л

8 часов назад
Claude Code нашел 23-летний дефект в Linux
Николас Карлини, исследователь из Anthropic, рассказал на конференции [un]prompted 2026, что с помощью Claude Code обнаружил несколько удаленно эксплуатируемых уязвимостей в ядре Linux. Одна из них —