Wir haben ein grundlegendes Problem damit, wie wir KI für die Wissenschaft bewerten. Aktuelle Benchmarks testen isolierte Fähigkeiten - Kann die KI Daten analysieren? Hypothesen generieren? Experimente entwerfen? Aber so funktioniert echte Forschung nicht 🧵
Wir haben gerade einen Preprint veröffentlicht, der einen neuen Ansatz zur Bewertung von KI-Wissenschaftlern als Forschungs-Co-Piloten anstelle von isolierten Aufgabenausführern vorschlägt. Die Erkenntnisse leiten unseren Wiederaufbau von BioAgents zu den besten wissenschaftlichen Agenten der Welt. Lesen Sie das Papier auf @arxiv:
Das Hauptproblem, das wir lösen wollten: Die aktuellen KI-Benchmarks für die Wissenschaft erfassen nicht die tatsächlichen Arbeitsabläufe von biomedizinischen Forschern. Beispiel: Ein Postdoc analysiert am Montag genetische Daten, verfeinert am Dienstag Hypothesen, passt am Donnerstag Protokolle basierend auf überarbeiteten Budgets an und integriert alles nächste Woche in einen Vorschlag. Aktuelle Benchmarks testen separat: * Datenanalysequalität ✓ * Hypothesenvalidität ✓ * Protokolldesign ✓ Aber keiner bewertet, ob die KI die Hypothese vom Dienstag bei der Gestaltung der Experimente am Donnerstag erinnert hat oder ob die Budgetbeschränkung vom Donnerstag in den Vorschlag vom Montag übernommen wurde.
In über 3.200 gesichteten Arbeiten hat unsere Überprüfung 5 Bewertungsdimensionen identifiziert: * Traditionelle Leistungskennzahlen * Mehrstufiges Denken & experimentelle Planung * Sicherheit & Fehlersuche * Wissenssynthese * Werkzeuggestützte Arbeitsabläufe Was wir immer wieder vermisst haben: wie diese Dimensionen in Kombination während realer F&E-Zyklen und experimenteller Gestaltung funktionieren. Eine KI kann jeden Benchmark bestehen - und dennoch als Forschungspartner Schwierigkeiten haben. @ilyasut hat kürzlich einen ähnlichen Punkt im @dwarkesh_sp Podcast angesprochen und beobachtet, wie die heutigen KI-Modelle bei komplizierteren Aufgaben als Programmieragenten nicht verallgemeinern können:
Diese Fehlermuster sind nicht nur theoretisch. Recursion Pharmaceuticals führt wöchentlich 2,2 Millionen KI-gesteuerte Experimente durch, und die Märkte für Laborautomatisierung wachsen jährlich um 7–8%. Der Einsatz von KI in risikobehafteter Forschung erfordert strenge Überprüfungen der wissenschaftlichen Validität, Reproduzierbarkeit und Sicherheit.
Wir schlagen vor, von reinem Fähigkeitsbenchmarking zu einer Erweiterung um Workflow-Benchmarks überzugehen. Vier Dimensionen sind viel wichtiger als jede einzelne Aufgabenbewertung: 1. Dialogqualität - Stellt es klärende Fragen, bevor es sich festlegt? 2. Workflow-Orchestrierung - Spiegeln spätere Phasen frühere Einschränkungen wider? 3. Sitzungs-Kontinuität - Merkt es sich den Kontext über Tage hinweg? 4. Forschererfahrung - Kalibriert es das Vertrauen angemessen?
Workflow-Benchmarks zielen darauf ab, KI wie in der echten Wissenschaft einem Stresstest zu unterziehen. Mit unvollständigen Daten, sich ändernden Budgets, widersprüchlichen Ergebnissen, PI-Feedback und unerwarteten Misserfolgen. Passt sich die KI an oder kollabiert sie in Starrheit und Halluzinationen? Nur das Erstere ist ein wahrer Forschungspartner.
Fazit: Systeme, die bei isolierten Aufgaben hohe Punktzahlen erzielen, können als Forschungs-Co-Piloten versagen. Es ist an der Zeit, die Benchmarks zu erweitern, um zu entsprechen, wie Wissenschaftler tatsächlich arbeiten: iterativ, konversationell, constraints-bewusst und über mehrere Sitzungen hinweg. Die Zukunft der KI für Wissenschaft hängt davon ab.
7,64K