Когда вы создаете AI-агентов, не рассматривайте подсказки как строки конфигурации. Смотрите на них как на исполняемую бизнес-логику. Потому что именно это они и есть. Блог @arshdilbagi и эта лекция Stanford CS 224G представляют одну из самых ясных ментальных моделей, которые я видел для оценки LLM. Перестаньте рассматривать оценки как юнит-тесты. Это работает для детерминированного программного обеспечения. Для продуктов LLM это создает ложное чувство уверенности, потому что реальное использование меняется со временем. Пример: подсказка для страхования прошла 20 оценочных случаев. Команда выпустила продукт. В производстве появилась новая категория запросов, и они тихо провалились. Никакого сбоя, никаких предупреждений, просто неправильные ответы в большом масштабе. Решение не в том, чтобы "написать больше оценочных случаев", что делают многие команды. Решение заключается в создании оценок как живой обратной связи. Начните с небольшого набора, выпустите, наблюдайте, что ломается в производстве, добавьте эти сбои обратно и повторно запускайте на каждой подсказке или изменении модели. Какой сбой в оценке застал вашу команду врасплох? Блог: Лекция Stanford CS 224G: