Populære emner
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Vi har et grunnleggende problem med hvordan vi evaluerer AI for vitenskap.
Nåværende benchmarks tester isolerte kapasiteter – Kan AI-en analysere data? Generere hypoteser? Designeksperimenter?
Men slik fungerer 🧵 ikke ekte forskning

Vi har nettopp publisert en preprint som foreslår en ny måte å evaluere AI-forskere på som forskningsmedpiloter i stedet for isolerte oppgaveutøvere.
Lærdommene styrer vår ombygging av BioAgents til verdens beste vitenskapelige agenter.
Les artikkelen på @arxiv:

Hovedproblemet vi satte oss fore å løse: nåværende AI for vitenskapelige referansepunkter klarer ikke å fange opp de faktiske arbeidsflytene til biomedisinske forskere.
Eksempel: en postdoktor analyserer genetiske data mandag, forbedrer hypoteser tirsdag, tilpasser protokoller torsdag basert på reviderte budsjetter, og integrerer deretter alt i et forslag neste uke.
Nåværende referanseverdier tester separat:
* Dataanalysekvalitet ✓
* Hypotesegyldighet ✓
* Protokolldesign ✓
Men ingen vurderer om AI-en husket tirsdagens hypotese da de designet torsdagens eksperimenter, eller om torsdagens budsjettbegrensning også gjaldt mandagens forslag.

På tvers av 3 200+ artikler som ble screenet, identifiserte vår gjennomgang 5 evalueringsdimensjoner:
* Tradisjonelle ytelsesmålinger
* Flertrinns resonnement og eksperimentell planlegging
* Sikkerhets- og feildeteksjon
* Kunnskapssyntese
* Verktøyforsterkede arbeidsflyter
Det vi gjentatte ganger fant manglet: hvordan disse dimensjonene fungerer i kombinasjon under reelle FoU-sykluser og eksperimentell design.
En AI kan toppe alle standarder – og likevel slite som forskningspartner.
@ilyasut tok nylig opp et lignende poeng på @dwarkesh_sp-podcasten, og observerte hvordan dagens AI-modeller ikke generaliserer for mer kompliserte oppgaver som kodingsagenter:
Disse feilmønstrene er ikke bare teoretiske.
Recursion Pharmaceuticals gjennomfører 2,2 millioner AI-ledede eksperimenter ukentlig, og markedene for laboratorieautomatisering vokser med 7–8 % årlig.
Å depoye AI i forskning med høye innsatser krever grundige kontroller av vitenskapelig gyldighet, reproduserbarhet og sikkerhet.
Vi foreslår å utvide fra rene kapasitetsbenchmarks til også å inkludere arbeidsflytbenchmarks.
Fire dimensjoner betyr langt mer enn noen enkelt oppgavescore:
1. Dialogkvalitet – Stiller den oppklarende spørsmål før man forplikter seg?
2. Arbeidsflytorkestrering – Reflekterer senere stadier tidligere begrensninger?
3. Økt kontinuitet – Husker den kontekst over dagene?
4. Forskererfaring – Kalibrerer den tillit riktig?
Arbeidsflyt-benchmarks har som mål å stressteste AI slik ekte vitenskap gjør.
Med ufullstendige data, skiftende budsjetter, motstridende resultater, tilbakemeldinger fra veiledere og uventede feil.
Tilpasser AI-en seg, eller kollapser den inn i rigiditet og hallusinasjoner?
Bare førstnevnte er en ekte forskningspartner.

Konklusjon: Systemer som scorer høyt på isolerte oppgaver kan mislykkes som forskningsco-piloter.
Det er på tide å utvide referansepunktene for å matche hvordan forskere faktisk fungerer: iterativ, samtalebasert, begrensningsbevisst, som strekker seg over flere økter.
Fremtiden for AI for vitenskap avhenger av det.
7,64K
Topp
Rangering
Favoritter
