Argomenti di tendenza
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Abbiamo un problema fondamentale con il modo in cui stiamo valutando l'AI per la scienza.
I benchmark attuali testano capacità isolate - L'AI può analizzare i dati? Generare ipotesi? Progettare esperimenti?
Ma non è così che funziona la ricerca reale 🧵

Abbiamo appena pubblicato un preprint che propone un nuovo modo di valutare gli AI Scientists come co-piloti della ricerca piuttosto che come esecutori di compiti isolati.
Le lezioni apprese stanno guidando la nostra ricostruzione di BioAgents nei migliori agenti scientifici al mondo.
Leggi il documento su @arxiv:

Il problema principale che ci siamo proposti di risolvere: gli attuali benchmark dell'AI per la scienza non riescono a catturare i reali flussi di lavoro dei ricercatori biomedici.
Esempio: un postdoc analizza dati genetici lunedì, affina le ipotesi martedì, adatta i protocolli giovedì in base ai budget rivisti, quindi integra tutto in una proposta la settimana successiva.
Gli attuali benchmark testano separatamente:
* Qualità dell'analisi dei dati ✓
* Validità dell'ipotesi ✓
* Progettazione del protocollo ✓
Ma nessuno valuta se l'AI si sia ricordata dell'ipotesi di martedì quando ha progettato gli esperimenti di giovedì, o se il vincolo di budget di giovedì sia stato trasferito alla proposta di lunedì.

Attraverso oltre 3.200 articoli esaminati, la nostra revisione ha identificato 5 dimensioni di valutazione:
* Metriche di performance tradizionali
* Ragionamento multi-step e pianificazione sperimentale
* Sicurezza e rilevamento degli errori
* Sintesi della conoscenza
* Flussi di lavoro potenziati da strumenti
Ciò che abbiamo ripetutamente trovato mancante: come queste dimensioni funzionano in combinazione durante i veri cicli di R&D e la progettazione sperimentale.
Un'AI può superare ogni benchmark - eppure avere difficoltà come partner di ricerca.
@ilyasut ha sollevato un punto simile di recente nel podcast @dwarkesh_sp, osservando come i modelli di AI di oggi non riescano a generalizzare per compiti più complicati come agenti di codifica:
Questi modelli di fallimento non sono solo teorici.
Recursion Pharmaceuticals esegue 2,2 milioni di esperimenti guidati da AI ogni settimana, e i mercati dell'automazione di laboratorio stanno crescendo del 7-8% all'anno.
L'implementazione dell'AI nella ricerca ad alto rischio richiede controlli rigorosi per la validità scientifica, la riproducibilità e la sicurezza.
Proponiamo di espandere i benchmark delle capacità per includere anche i benchmark dei flussi di lavoro.
Quattro dimensioni contano molto di più di qualsiasi punteggio di un singolo compito:
1. Qualità del Dialogo - Fa domande di chiarimento prima di impegnarsi?
2. Orchestrazione del Flusso di Lavoro - Le fasi successive riflettono le restrizioni precedenti?
3. Continuità della Sessione - Ricorda il contesto nel corso dei giorni?
4. Esperienza del Ricercatore - Calibra la fiducia in modo appropriato?
I benchmark di workflow mirano a mettere alla prova l'AI come fa la vera scienza.
Con dati incompleti, budget in cambiamento, risultati contrastanti, feedback del PI e fallimenti inaspettati.
L'AI si adatta o collassa in rigidità e allucinazioni?
Solo la prima è un vero partner di ricerca.

In sintesi: i sistemi che ottengono punteggi elevati in compiti isolati possono fallire come co-piloti nella ricerca.
È tempo di espandere i benchmark per allinearsi a come gli scienziati lavorano realmente: in modo iterativo, conversazionale, consapevole dei vincoli, spaziando su più sessioni.
Il futuro dell'AI per la scienza dipende da questo.
7,65K
Principali
Ranking
Preferiti
