Актуальні теми
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
У нас є фундаментальна проблема з тим, як ми оцінюємо ШІ для науки.
Поточні бенчмарки перевіряють ізольовані можливості — чи може ШІ аналізувати дані? Генерувати гіпотези? Експерименти з дизайну?
Але справжні дослідження 🧵 працюють інакше

Ми щойно опублікували препринт, у якому запропонували новий спосіб оцінки науковців ШІ як співпілотів досліджень, а не ізольованих виконавців завдань.
Отримані знання спрямовують наше перебудову біоагентів у найкращі наукові агенти світу.
Прочитайте статтю про @arxiv:

Головна проблема, яку ми прагнемо розв'язати: нинішні показники AI для науки не відображають реальні робочі процеси біомедичних дослідників.
Приклад: постдок аналізує генетичні дані у понеділок, у вівторок уточнює гіпотези, у четвер адаптує протоколи на основі оновлених бюджетів, а наступного тижня інтегрує все у пропозицію.
Поточні бенчмарки тестуються окремо:
* Якість аналізу даних ✓
* Валідність гіпотези ✓
* Проєктування протоколу ✓
Але ніхто не оцінює, чи пам'ятав ШІ гіпотезу вівторка під час розробки експериментів у четвер, чи бюджетне обмеження четверга поширилося на понеділкову пропозицію.

У 3 200+ відібраних статей наш огляд визначив 5 вимірювань оцінки:
* Традиційні метрики продуктивності
* Багатокрокове мислення та експериментальне планування
* Виявлення безпеки та помилок
* Синтез знань
* Робочі процеси, доповнені інструментами
Те, чого ми неодноразово виявляли, що не вистачає: як ці виміри працюють у поєднанні під час реальних циклів досліджень і розробок експериментального дизайну.
Штучний інтелект може успішно пройти всі еталони — і все одно мати труднощі як партнер по дослідженню.
@ilyasut нещодавно підняв подібне питання у подкасті @dwarkesh_sp, спостерігаючи, як сучасні моделі ШІ не узагальнюють для складніших завдань як кодові агенти:
Ці патерни відмов не лише теоретичні.
Recursion Pharmaceuticals щотижня проводить 2,2 млн експериментів під керівництвом ШІ, а ринки лабораторної автоматизації зростають на 7–8% щорічно.
Розкриття ШІ у високопоставлених дослідженнях вимагає суворих перевірок наукової достовірності, відтворюваності та безпеки.
Ми пропонуємо розширити межі з суто бенчмарків можливостей до включення також бенчмарків робочих процесів.
Чотири виміри мають набагато важливіше за будь-який окремий результат завдання:
1. Якість діалогів — чи ставить він уточнюючі питання перед прийняттям рішення?
2. Оркестрація робочих процесів — чи відображають пізніші етапи попередні обмеження?
3. Безперервність сесії — чи пам'ятає він контекст протягом днів?
4. Досвід дослідника — чи правильно він калібрує довіру?
Бенчмарки робочих процесів спрямовані на стрес-тестування ШІ, як це робить справжня наука.
Через неповні дані, зміну бюджетів, суперечливі результати, зворотний зв'язок керівників і несподівані помилки.
Чи пристосовується ШІ, чи розпадається у жорсткість і галюцинації?
Лише перший є справжнім партнером по дослідженнях.

Підсумок: системи, які отримують високі бали за окремі завдання, можуть зазнати невдачі як дослідницькі співпілоти.
Настав час розширити бенчмарки відповідно до того, як насправді працюють науковці: ітеративно, розмовно, з урахуванням обмежень, що охоплює кілька сесій.
Від цього залежить майбутнє штучного інтелекту для науки.
7,67K
Найкращі
Рейтинг
Вибране
