.@AnkythShukla多くのAIビルダーが見落としがちな明確な区別をしました。 「評価って何でもいいよね?これを本当に簡単に説明するなら、どんな種類のテストでも起こり得ます。古い言語でのユニットテストかもしれません。単に単語数を数えているだけかもしれません。あるいは、私たちが示したように、最も高度な形ではLLMジャッジで、私たちが見たプロンプトに符号化した人間の直感の一部を再現しているようなものです。」 これによりAI評価の議論全体が再構築されます。 多くのチームは「評価」と聞いて複雑なLLMを審査員として考えます。彼らは怖気づく。彼らはそれを飛ばします。彼らは測定せずに発送します。 @aakashguptaのポッドキャストでこのエピソードの現実は以下の通りです: > 評価は単語数関数や単体テストのように単純なものでもあります。スタートのハードルは低いです。それをスキップするコストは大きいです。 > LLM審査員は高度な形態で、人間の直感をプロンプトに組み込み、AIの出力を大規模に評価するものです。 > そのスペクトラムは決定論的なコードチェックから主観的な品質評価まで幅広く及びます。どちらもカウントされます。どちらも重要です。 > これは、プロトタイプが大規模に失敗する理由に直接対応しています。@AnkythShukla 5つの理由を挙げましたが、特に2つが際立っています。 データドリフト:製品は一つの現実のために作られました。ユーザーは別の場所に住んでいます。評価が継続的に実行されていないと、発散を見逃すことはできません。 コスト:SaaSはユーザーあたりの限界コストがほぼゼロです。AIはそうではありません。すべての電話にはお金がかかります。どの通話がうまくいっていてどれが無駄かを評価しないと、費用は大きくなり、見合った価値がありません。 要するに、AI評価は質の高い贅沢品ではありません。これらは、プロトタイプが製品になるか、95%の失敗率の中で統計になるかを決定する運用インフラです。