У нас є фундаментальна проблема з тим, як ми оцінюємо ШІ для науки. Поточні бенчмарки перевіряють ізольовані можливості — чи може ШІ аналізувати дані? Генерувати гіпотези? Експерименти з дизайну? Але справжні дослідження 🧵 працюють інакше
Ми щойно опублікували препринт, у якому запропонували новий спосіб оцінки науковців ШІ як співпілотів досліджень, а не ізольованих виконавців завдань. Отримані знання спрямовують наше перебудову біоагентів у найкращі наукові агенти світу. Прочитайте статтю про @arxiv:
Головна проблема, яку ми прагнемо розв'язати: нинішні показники AI для науки не відображають реальні робочі процеси біомедичних дослідників. Приклад: постдок аналізує генетичні дані у понеділок, у вівторок уточнює гіпотези, у четвер адаптує протоколи на основі оновлених бюджетів, а наступного тижня інтегрує все у пропозицію. Поточні бенчмарки тестуються окремо: * Якість аналізу даних ✓ * Валідність гіпотези ✓ * Проєктування протоколу ✓ Але ніхто не оцінює, чи пам'ятав ШІ гіпотезу вівторка під час розробки експериментів у четвер, чи бюджетне обмеження четверга поширилося на понеділкову пропозицію.
У 3 200+ відібраних статей наш огляд визначив 5 вимірювань оцінки: * Традиційні метрики продуктивності * Багатокрокове мислення та експериментальне планування * Виявлення безпеки та помилок * Синтез знань * Робочі процеси, доповнені інструментами Те, чого ми неодноразово виявляли, що не вистачає: як ці виміри працюють у поєднанні під час реальних циклів досліджень і розробок експериментального дизайну. Штучний інтелект може успішно пройти всі еталони — і все одно мати труднощі як партнер по дослідженню. @ilyasut нещодавно підняв подібне питання у подкасті @dwarkesh_sp, спостерігаючи, як сучасні моделі ШІ не узагальнюють для складніших завдань як кодові агенти:
Ці патерни відмов не лише теоретичні. Recursion Pharmaceuticals щотижня проводить 2,2 млн експериментів під керівництвом ШІ, а ринки лабораторної автоматизації зростають на 7–8% щорічно. Розкриття ШІ у високопоставлених дослідженнях вимагає суворих перевірок наукової достовірності, відтворюваності та безпеки.
Ми пропонуємо розширити межі з суто бенчмарків можливостей до включення також бенчмарків робочих процесів. Чотири виміри мають набагато важливіше за будь-який окремий результат завдання: 1. Якість діалогів — чи ставить він уточнюючі питання перед прийняттям рішення? 2. Оркестрація робочих процесів — чи відображають пізніші етапи попередні обмеження? 3. Безперервність сесії — чи пам'ятає він контекст протягом днів? 4. Досвід дослідника — чи правильно він калібрує довіру?
Бенчмарки робочих процесів спрямовані на стрес-тестування ШІ, як це робить справжня наука. Через неповні дані, зміну бюджетів, суперечливі результати, зворотний зв'язок керівників і несподівані помилки. Чи пристосовується ШІ, чи розпадається у жорсткість і галюцинації? Лише перший є справжнім партнером по дослідженнях.
Підсумок: системи, які отримують високі бали за окремі завдання, можуть зазнати невдачі як дослідницькі співпілоти. Настав час розширити бенчмарки відповідно до того, як насправді працюють науковці: ітеративно, розмовно, з урахуванням обмежень, що охоплює кілька сесій. Від цього залежить майбутнє штучного інтелекту для науки.
7,67K