Myślę, że dzieje się tutaj coś ważnego, co warto zrozumieć: 1) większość modeli jest przetrenowana na ocenach. Mimo to potrzebujemy pewnych ocen, aby powiedzieć modelowi, czy jest dobrym detektorem bzdur, zanim wydamy dużo pieniędzy na zwracanie nonsensów. 2) musi istnieć świadomość sycofantyzmu, a ogólnie bycie zgodnym nie zawsze jest najlepszą rzeczą. 3) myślę, że użycie mieszanki llm i ludzi do oceny byłoby wartościowe.