Коли створюєте AI-агентів, не ставтеся до запитів як до конфігураційних рядків. Ставтеся до них як до виконуваної бізнес-логіки. Бо саме такими вони є. Блог @arshdilbagi та ця лекція з CS 224G у Стенфорді викладають одну з найчіткіших ментальних моделей, які я бачив для оцінювання LLM. Перестаньте ставитися до оцінок як до юніт-тестів. Це працює для детермінованого програмного забезпечення. Для продуктів LLM це створює хибну впевненість, оскільки реальне використання змінюється з часом. Приклад: страховий запит пройшов 20 випадків оцінки. Команда пішла на свої руки. Під час виробництва з'явився новий клас запитів, які тихо не провалилися. Жодної аварії, жодної тривоги, просто неправильні відповіді в масштабі. Проблема не в тому, щоб «писати більше оцінюваних випадків», як це роблять багато команд. Вона будує оцінки як живий зворотний зв'язок. Починайте з невеликого набору, відправляйте, спостерігайте, що ламається у виробництві, додавайте ці збої назад і повторюйте при кожному запиті чи зміні моделі. Яка невдача в оцінці застала вашу команду зненацька? Блог: Лекція CS 224G у Стенфорді: