Abbiamo un problema fondamentale con il modo in cui stiamo valutando l'AI per la scienza. I benchmark attuali testano capacità isolate - L'AI può analizzare i dati? Generare ipotesi? Progettare esperimenti? Ma non è così che funziona la ricerca reale 🧵
Abbiamo appena pubblicato un preprint che propone un nuovo modo di valutare gli AI Scientists come co-piloti della ricerca piuttosto che come esecutori di compiti isolati. Le lezioni apprese stanno guidando la nostra ricostruzione di BioAgents nei migliori agenti scientifici al mondo. Leggi il documento su @arxiv:
Il problema principale che ci siamo proposti di risolvere: gli attuali benchmark dell'AI per la scienza non riescono a catturare i reali flussi di lavoro dei ricercatori biomedici. Esempio: un postdoc analizza dati genetici lunedì, affina le ipotesi martedì, adatta i protocolli giovedì in base ai budget rivisti, quindi integra tutto in una proposta la settimana successiva. Gli attuali benchmark testano separatamente: * Qualità dell'analisi dei dati ✓ * Validità dell'ipotesi ✓ * Progettazione del protocollo ✓ Ma nessuno valuta se l'AI si sia ricordata dell'ipotesi di martedì quando ha progettato gli esperimenti di giovedì, o se il vincolo di budget di giovedì sia stato trasferito alla proposta di lunedì.
Attraverso oltre 3.200 articoli esaminati, la nostra revisione ha identificato 5 dimensioni di valutazione: * Metriche di performance tradizionali * Ragionamento multi-step e pianificazione sperimentale * Sicurezza e rilevamento degli errori * Sintesi della conoscenza * Flussi di lavoro potenziati da strumenti Ciò che abbiamo ripetutamente trovato mancante: come queste dimensioni funzionano in combinazione durante i veri cicli di R&D e la progettazione sperimentale. Un'AI può superare ogni benchmark - eppure avere difficoltà come partner di ricerca. @ilyasut ha sollevato un punto simile di recente nel podcast @dwarkesh_sp, osservando come i modelli di AI di oggi non riescano a generalizzare per compiti più complicati come agenti di codifica:
Questi modelli di fallimento non sono solo teorici. Recursion Pharmaceuticals esegue 2,2 milioni di esperimenti guidati da AI ogni settimana, e i mercati dell'automazione di laboratorio stanno crescendo del 7-8% all'anno. L'implementazione dell'AI nella ricerca ad alto rischio richiede controlli rigorosi per la validità scientifica, la riproducibilità e la sicurezza.
Proponiamo di espandere i benchmark delle capacità per includere anche i benchmark dei flussi di lavoro. Quattro dimensioni contano molto di più di qualsiasi punteggio di un singolo compito: 1. Qualità del Dialogo - Fa domande di chiarimento prima di impegnarsi? 2. Orchestrazione del Flusso di Lavoro - Le fasi successive riflettono le restrizioni precedenti? 3. Continuità della Sessione - Ricorda il contesto nel corso dei giorni? 4. Esperienza del Ricercatore - Calibra la fiducia in modo appropriato?
I benchmark di workflow mirano a mettere alla prova l'AI come fa la vera scienza. Con dati incompleti, budget in cambiamento, risultati contrastanti, feedback del PI e fallimenti inaspettati. L'AI si adatta o collassa in rigidità e allucinazioni? Solo la prima è un vero partner di ricerca.
In sintesi: i sistemi che ottengono punteggi elevati in compiti isolati possono fallire come co-piloti nella ricerca. È tempo di espandere i benchmark per allinearsi a come gli scienziati lavorano realmente: in modo iterativo, conversazionale, consapevole dei vincoli, spaziando su più sessioni. Il futuro dell'AI per la scienza dipende da questo.
7,65K