DApp-butik | Web3-hubb för evenemang och spel

Trendande ämnen

Vi har ett grundläggande problem med hur vi utvärderar AI för vetenskap. Nuvarande benchmarks testar isolerade förmågor – Kan AI:n analysera data? Generera hypoteser? Designexperiment? Men så fungerar 🧵 inte riktig forskning

Vi har precis publicerat en preprint där vi föreslår ett nytt sätt att utvärdera AI-forskare som forskningsco-piloter istället för isolerade uppgiftsutförare. Lärdomarna vägleder vår återuppbyggnad av BioAgents till världens bästa vetenskapliga agenter. Läs artikeln på @arxiv:

Det huvudsakliga problemet vi ville lösa: nuvarande AI för vetenskapliga benchmarks misslyckas med att fånga de faktiska arbetsflödena för biomedicinska forskare. Exempel: en postdoktor analyserar genetiska data på måndag, förfinar hypoteser på tisdagen, anpassar protokoll på torsdagen baserat på reviderade budgetar och integrerar sedan allt i ett förslag nästa vecka. Nuvarande riktmärken testar separat: * Dataanalyskvalitet ✓ * Hypotesvaliditet ✓ * Protokolldesign ✓ Men ingen bedömer om AI:n kom ihåg tisdagens hypotes när de utformade torsdagens experiment, eller om torsdagens budgetbegränsning följde med i måndagens förslag.

Bland 3 200+ granskade artiklar identifierade vår översikt 5 utvärderingsdimensioner: * Traditionella prestationsmått * Flerstegsresonemang och experimentell planering * Säkerhet och felupptäckt * Kunskapssyntes * Verktygsförstärkta arbetsflöden Vad vi upprepade gånger fann saknades: hur dessa dimensioner fungerar i kombination under verkliga FoU-cykler och experimentell design. En AI kan klara varje riktmärke – och ändå kämpa som forskningspartner. @ilyasut tog nyligen upp en liknande poäng i @dwarkesh_sp-podden, där han observerade hur dagens AI-modeller misslyckas med att generalisera för mer komplicerade uppgifter som kodningsagenter:

Dessa felmönster är inte bara teoretiska. Recursion Pharmaceuticals genomför 2,2 miljoner AI-ledda experiment varje vecka, och marknaderna för laboratorieautomation växer med 7–8 % årligen. Att avsätta AI i forskning med höga insatser kräver rigorösa kontroller av vetenskaplig validitet, reproducerbarhet och säkerhet.

Vi föreslår att vi utvidgar från enbart kapabilitetsbenchmarks till även att inkludera arbetsflödesbenchmarks. Fyra dimensioner är mycket viktigare än någon enskild uppgiftspoäng: 1. Dialogkvalitet – Ställer den förtydligande frågor innan man binder sig? 2. Arbetsflödesorkestrering – Speglar senare steg tidigare begränsningar? 3. Sessionens kontinuitet – Kommer den ihåg kontext över dagar? 4. Forskarerfarenhet – Kalibrerar den förtroendet på rätt sätt?

Arbetsflödesbenchmarks syftar till att stresstesta AI precis som verklig vetenskap gör. Med ofullständig data, skiftande budgetar, motstridiga resultat, PI-feedback och oväntade misslyckanden. Anpassar sig AI:n, eller faller den ihop i stelhet och hallucinationer? Endast den förstnämnda är en verklig forskningspartner.

Slutsats: System som får höga poäng på isolerade uppgifter kan misslyckas som forskningsco-piloter. Det är dags att utöka riktmärkena för att matcha hur forskare faktiskt arbetar: iterativt, samtalsinriktat, medvetet om begränsningar, och sträcker sig över flera sessioner. Framtiden för AI för vetenskap beror på det.

7,65K

Topp

Rankning

Favoriter