Bence burada önemli bir şey olup bitiyor ve çözmeye değer: 1) Çoğu model değerlendirmelere fazla uyum sağlar. Bununla birlikte, bir modelin iyi saçmalık dedektörleri olup olmadığını söylemek için bazı değerlendirmelere ihtiyacımız var, sonra geri dönüş için bir sürü para harcayacağız 2) Yaltaklık konusunda farkında olmalı ve genel olarak uyumlu olmak her zaman en iyi şey değildir 3) Bence LLM'ler ve insanları bir karışım kullanarak değerlendirmek faydalı olur