🚨 速報:スタンフォード大学がLLMの推論に関する最も居心地の悪い論文を発表しました。 リーダーボードが完璧と言っても、なぜLLMが失敗し続けるのかを体系的に分析しています。 彼らは推論を二つのカテゴリーに分けました:身体化されていない(数学、論理、常識)と身体化された(物理的世界)です。そして、まったく同じ失敗がどこにでも現れます。 最も憂慮すべき発見の一つは、モデルがいかに頻繁に不誠実な推論を生み出しているかということです。モデルは正しい最終回答を出しますが、その説明は完全に作り話か論理的に間違っています。それは文字通り、偽りの意思決定プロセスを信頼するように私たちを訓練します。 また、基本的なアーキテクチャの失敗(軽い論理の崩壊)や堅牢性の失敗(プロンプトの単語を一つでも変えると答えが全変)も抱えています。そして身体化された推論は?さらに悪い。LLMは物理的な接地が全くないため、基本的な物理学では予測通り失敗します。 要点: LLMは説得力のある程度の推論ですが、信頼性には至りません。ベンチマークはクリアしつつも本番環境では静かに失敗するシステムを展開しています。