AIエージェントは実際の生物学的分析を行い始めています。データセットの検査、計算ワークフローの実行、価値ある研究成果の生成です。 科学におけるAIが実験室での実用化に近づく中、生物剤を効果的に評価する方法という問題はますます重要になっています。 BixBench Verified 50は、複数のバイオインフォマティクス分野にわたる生物剤を評価するための厳選された質問リストです。 BIOSのAI Scientistは、BixBench Verified 50と、汎用およびドメイン固有のAIエージェントと共にテストしました。 BIOSは90%の精度でリードし、K-Denseも同様に対応しました。 続編: > Biomni Labs - 88.7% > エジソン・サイエンティフィック - 78.0% > クロード - 65.3% & > OpenAI Agents SDK - 61.3% 完全な結果をご覧ください: 重要なポイントの一つは、生物剤の評価は分析パイプラインが正しく動作しているかどうかだけではないということです。 あるベンチマークタスクでは、エージェントは正しい相関を計算しましたが、データセットの列の生物学的意味を誤解しました。 その結果、数値的に正しい分析は得られたが、生物学的には結論が逆戻りした。 生物剤が制御されたベンチマークから現実世界の科学環境へと移行する中で、最終的な答えが数値的に正しいかどうかだけでなく、ワークフロー、仮定、推論を評価する必要があります。 詳しくはブログ記事をご覧ください: