Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Коли створюєте AI-агентів, не ставтеся до запитів як до конфігураційних рядків.
Ставтеся до них як до виконуваної бізнес-логіки. Бо саме такими вони є.
Блог @arshdilbagi та ця лекція з CS 224G у Стенфорді викладають одну з найчіткіших ментальних моделей, які я бачив для оцінювання LLM.
Перестаньте ставитися до оцінок як до юніт-тестів.
Це працює для детермінованого програмного забезпечення.
Для продуктів LLM це створює хибну впевненість, оскільки реальне використання змінюється з часом.
Приклад: страховий запит пройшов 20 випадків оцінки. Команда пішла на свої руки. Під час виробництва з'явився новий клас запитів, які тихо не провалилися. Жодної аварії, жодної тривоги, просто неправильні відповіді в масштабі.
Проблема не в тому, щоб «писати більше оцінюваних випадків», як це роблять багато команд.
Вона будує оцінки як живий зворотний зв'язок. Починайте з невеликого набору, відправляйте, спостерігайте, що ламається у виробництві, додавайте ці збої назад і повторюйте при кожному запиті чи зміні моделі.
Яка невдача в оцінці застала вашу команду зненацька?
Блог:
Лекція CS 224G у Стенфорді:

Найкращі
Рейтинг
Вибране
