DApp Store | Hub Web3 pour les événements et les jeux

Rubriques tendance

Nous avons un problème fondamental avec la façon dont nous évaluons l'IA pour la science. Les benchmarks actuels testent des capacités isolées - L'IA peut-elle analyser des données ? Générer des hypothèses ? Concevoir des expériences ? Mais ce n'est pas ainsi que fonctionne la recherche réelle 🧵

Nous venons de publier un préprint proposant une nouvelle façon d'évaluer les scientifiques IA en tant que co-pilotes de recherche plutôt qu'en tant qu'exécuteurs de tâches isolés. Les enseignements guident notre reconstruction de BioAgents en les meilleurs agents scientifiques au monde. Lisez le document sur @arxiv:

Le principal problème que nous avons cherché à résoudre : les benchmarks actuels de l'IA pour la science ne parviennent pas à capturer les flux de travail réels des chercheurs biomédicaux. Exemple : un postdoctorant analyse des données génétiques lundi, affine des hypothèses mardi, adapte des protocoles jeudi en fonction des budgets révisés, puis intègre le tout dans une proposition la semaine suivante. Les benchmarks actuels testent séparément : * Qualité de l'analyse des données ✓ * Validité des hypothèses ✓ * Conception des protocoles ✓ Mais aucun n'évalue si l'IA a retenu l'hypothèse de mardi lors de la conception des expériences de jeudi, ou si la contrainte budgétaire de jeudi a été prise en compte dans la proposition de lundi.

Au cours de l'examen de plus de 3 200 articles, notre revue a identifié 5 dimensions d'évaluation : * Métriques de performance traditionnelles * Raisonnement multi-étapes et planification expérimentale * Sécurité et détection d'erreurs * Synthèse des connaissances * Flux de travail augmentés par des outils Ce que nous avons constaté à plusieurs reprises comme manquant : comment ces dimensions fonctionnent en combinaison lors des cycles de R&D réels et de la conception expérimentale. Une IA peut exceller à chaque référence - et avoir du mal en tant que partenaire de recherche. @ilyasut a récemment soulevé un point similaire sur le podcast @dwarkesh_sp, observant comment les modèles d'IA d'aujourd'hui échouent à se généraliser pour des tâches plus compliquées en tant qu'agents de codage :

Ces schémas d'échec ne sont pas seulement théoriques. Recursion Pharmaceuticals réalise 2,2 millions d'expériences guidées par l'IA chaque semaine, et les marchés de l'automatisation des laboratoires croissent de 7 à 8 % par an. Déployer l'IA dans des recherches à enjeux élevés exige des vérifications rigoureuses de la validité scientifique, de la reproductibilité et de la sécurité.

Nous proposons d'élargir les benchmarks de capacité pour inclure également des benchmarks de flux de travail. Quatre dimensions comptent bien plus qu'un score de tâche unique : 1. Qualité du dialogue - Pose-t-il des questions de clarification avant de s'engager ? 2. Orchestration des flux de travail - Les étapes ultérieures reflètent-elles les contraintes antérieures ? 3. Continuité de la session - Se souvient-il du contexte au fil des jours ? 4. Expérience du chercheur - Calibre-t-il la confiance de manière appropriée ?

Les benchmarks de workflow visent à soumettre l'IA à des tests de résistance comme le fait la vraie science. Avec des données incomplètes, des budgets changeants, des résultats contradictoires, des retours de PI et des échecs inattendus. L'IA s'adapte-t-elle, ou s'effondre-t-elle dans la rigidité et les hallucinations ? Seule la première est un véritable partenaire de recherche.

En résumé : Les systèmes obtenant de bons scores sur des tâches isolées peuvent échouer en tant que co-pilotes de recherche. Il est temps d'élargir les critères d'évaluation pour correspondre à la manière dont les scientifiques travaillent réellement : de manière itérative, conversationnelle, consciente des contraintes, s'étendant sur plusieurs sessions. L'avenir de l'IA pour la science en dépend.

7,67K

Meilleurs

Classement

Favoris