5 марта один инструмент AI для кодирования вызвал 99%-ное падение заказов на североамериканских рынках Amazon, уничтожив 6,3 миллиона заказов за один день. Инструменту было поручено внести незначительные изменения, и в процессе он разрушил целую среду, что привело к 13-часовому восстановлению. Для компании, обрабатывающей ~$4,000 продаж в секунду, это имеет очень конкретную денежную сумму. Теперь Amazon проводит обязательное общее инженерное собрание по этому поводу, называя это "рутинным." Их внутренний информационный документ рассказывает другую историю: паттерн сбоев с поддержкой AI с широкими последствиями и отсутствием установленных мер предосторожности для их предотвращения. Но почему это важно не только для Amazon? Каждое крупное предприятие в настоящее время внедряет инструменты AI в системы, которые никогда не были для них предназначены. Большинство движется быстро, предполагая, что риск управляем, пока день, подобный 5 марта, не докажет обратное. Ошибки на масштабе Amazon — это проблема доходов, проблема операций и, в конечном итоге, проблема ответственности руководства. Так что же на самом деле делает Amazon по этому поводу? Старший вице-президент Дэйв Тредвелл запустил документированную 90-дневную переработку 335 критически важных систем, ориентированных на клиентов, изложив это в письменной форме для сотрудников: • Два коллеги должны подписать одобрение, прежде чем изменение кода станет активным • Автоматизированные проверки обеспечивают соблюдение правил надежности перед развертыванием • Формальные инструменты управления изменениями теперь обязательны для всех • Каждый директор и руководитель уровня VP должен проверять все изменения производственного кода в своей организации После 90 дней Amazon создает жесткие границы вокруг своих инструментов AI. Потому что когда ошибки стоят реальных денег, защитные меры не являются необязательными.