«Пока работает – не трогай»: почему компании сами закладывают будущие аварии в свою IT-инфраструктуру

Евгений Жиделев
Евгений Жиделев
Как технический долг незаметно накапливается в бизнесе – и почему за эту «экономию» потом платят простоями, потерей данных и деньгами

В большинстве компаний IT-инфраструктуру вспоминают только тогда, когда она ломается. Пока системы запускаются, магазины открываются, кассы пробивают чеки, а сотрудники выходят на связь – кажется, что все в порядке. Именно в этот момент и начинает расти технический долг: серверы устаревают, сети деградируют, «временные решения» становятся постоянными, а обновления откладываются «на потом».

Проблема в том, что это «потом» почти всегда наступает внезапно – в виде аварии, утечки данных, остановки бизнеса или экстренных затрат. Почему компании годами откладывают модернизацию, чем опасна иллюзия стабильности и как технический долг превращается в реальный риск для бизнеса, мы поговорили с Евгением Жиделевым, IT-директором одного из топ-20 мировых ритейлеров в Азиатско-Тихоокеанском регионе, который отвечает за инфраструктуру в шести странах и управляет распределенной командой инженеров.

ЭГ: Евгений, фраза «пока работает – не трогай» звучит почти как корпоративный лозунг. Почему компании так легко верят, что с инфраструктурой все в порядке?

Евгений Жиделев: Потому что инфраструктура по своей природе очень устойчива. Даже деградируя, она продолжает «как-то» работать. Серверы запускаются, сеть вроде бы есть, приложения открываются – и создается иллюзия, что проблемы нет.

На практике же локальные сбои могут просто чиниться по месту: вручную, временными решениями, «костылями». Это воспринимается не как системная ошибка, а как особенность среды.

Я сталкивался с ситуацией, когда канал связи до удаленного объекта в другой стране работал с деградацией. Все считали, что так и должно быть: международные провайдеры, длинная цепочка маршрутизации, «ничего не сделаешь». Когда мы разобрали проблему глубже, оказалось, что все решалось настройками на стороне клиента. Но до этого момента бизнес просто привык к сниженной производительности и считал ее нормой.

ЭГ: Почему бизнесу так сложно увидеть ценность инфраструктуры, если от нее зависит буквально все?

Евгений Жиделев: Потому что хорошая инфраструктура незаметна. Как дороги или мобильная связь. О них вспоминают только тогда, когда они перестают работать. Кроме того, инфраструктура не приносит прямой выручки. Она не продается, не фигурирует в отчетах как источник дохода и поэтому редко воспринимается как инвестиция.

Эффект от модернизации чаще всего выражается не в росте KPI, а в том, что ничего плохого не произошло. А это очень сложно «продать» бизнесу. Намного проще согласовать запуск нового продукта, чем замену старой системы, которая «еще работает». При этом многие руководители даже не до конца понимают, что именно входит в инфраструктуру, а значит не могут оценить ее реальную ценность.

ЭГ: Часто обновления откладывают ради «более важных» задач. Насколько это опасно?

Евгений Жиделев: Это классическая ловушка краткосрочного мышления. Бизнес живет квартальными и годовыми показателями, и проекты с быстрым эффектом всегда выигрывают. А инфраструктурные обновления это долгие, сложные и часто дорогие инициативы.

В итоге модернизация переносится «на следующий год». Потом еще на один. И так бесконечно. Проблема в том, что технический долг никуда не исчезает. Он накапливается, усложняется и в какой-то момент начинает влиять на бизнес уже напрямую – через простои, сбои, невозможность быстро запустить новый сервис или выйти на новый рынок.

ЭГ: Многие риски кажутся абстрактными. Почему компании недооценивают эффект «домино»?

Евгений Жиделев: Потому что риски часто рассматриваются по отдельности. Один сервер, один канал, одна система – вроде бы ничего критичного. Но инфраструктура – это связанный организм. Если срабатывает одна точка отказа, за ней может «потянуться» вся цепочка.

Дополнительная проблема – отсутствие понимания стоимости простоя. Немногие компании могут ответить на простой вопрос: сколько нам стоит час недоступности конкретного подразделения? Пока нет такой модели, риски воспринимаются как абстрактные.

Хороший пример – системы видеоконференций. Они глубоко интегрированы с другими сервисами и сильно зависят от вендоров. Старое оборудование может прекрасно работать само по себе, но не интегрироваться с современными платформами. В итоге в момент необходимости обновления приходится менять все сразу – быстро, дорого и под давлением.

ЭГ: Часто звучит аргумент: «мы боимся трогать старые системы – вдруг все встанет». Насколько этот страх оправдан?

Евгений Жиделев: Он понятен, но крайне опасен. Чем старше система, тем выше психологический барьер к изменениям. Часто ее поддерживают «по памяти», без документации. Людей, которые ее внедряли, уже нет в компании. В результате любое изменение кажется страшным, потому что никто не понимает систему целиком. Но чем дольше мы ее не трогаем, тем сложнее и рискованнее становится миграция. Это замкнутый круг.

ЭГ: Есть еще проблема «незаменимых людей». Насколько она критична?

Евгений Жиделев: Очень критична. В ряде компаний ключевые знания сосредоточены у одного-двух специалистов. Фактически, они становятся точками отказа. Любая модернизация в такой ситуации воспринимается как угроза: нужно переобучать людей, менять роли, перераспределять ответственность. Руководству проще сохранить статус-кво, чем трогать эту хрупкую конструкцию.

ЭГ: Многие считают, что откладывая обновления, компания экономит. Это так?

Евгений Жиделев: Это иллюзия экономии. На самом деле просто растут скрытые издержки: ручные операции, внеплановые работы, переработки, высокая нагрузка на персонал. Увеличивается MTTR – время восстановления после сбоев. Все это редко попадает в отчеты, но напрямую влияет на устойчивость бизнеса.

Показательный пример – отказ от поддержки Windows XP в 2014 году. Тысячи банкоматов по всему миру оказались под угрозой. В итоге компании были вынуждены разом менять оборудование, потому что обновить его технически было невозможно. Если бы замена шла постепенно, это было бы дешевле и безопаснее.

ЭГ: Почему технический долг часто «ничей»?

Евгений Жиделев: Потому что у него нет формального владельца. Он размазан по подразделениям, а вклад каждого сложно посчитать. Иногда возникают кольцевые зависимости, где изменения одной команды зависят от другой – и договориться сразу со всеми крайне сложно.

Если технический долг не включен в управленческие метрики и не обсуждается на уровне топ-менеджмента, он неизбежно растет.

ЭГ: Можно ли сказать, что компании сами загоняют себя в ловушку?

Евгений Жиделев: Да, в этом и есть парадокс технического долга. Чем дольше его игнорируют, тем дороже и рискованнее становится модернизация и тем меньше остается вариантов плавного перехода. Технический долг – не неизбежное зло. Это управляемая величина. Вопрос не в том, нужно ли обновлять инфраструктуру, а когда и на каких условиях.

Самое важное – сделать обновления плановыми и подконтрольными, перевести инфраструктурные риски на язык бизнеса и управления. Только тогда компания перестает тушить пожары и начинает действительно управлять своей устойчивостью.

Василий Черный