Sklep DApp | Centrum Web3 dla wydarzeń i gier

Popularne tematy

Myślę, że to dobry sposób na wizualizację wyścigu AI przy użyciu długożyjącego benchmarku GPQA Diamond. Możesz zobaczyć, jak długo OpenAI miało pole dla siebie, wzrost (i upadek) Meta, nagłe dogonienie (a potem stagnacja) xAI oraz wejście otwartych wag chińskich LLM.

Test Q&A na poziomie magisterskim, odporny na Google (GPQA), to seria trudnych pytań wielokrotnego wyboru zaprojektowanych w celu sprawdzenia zaawansowanej wiedzy. Osoby niebędące ekspertami, mające dostęp do internetu, uzyskują 34% poprawnych odpowiedzi, a doktorzy z dostępem do internetu osiągają 65-70% w swojej specjalizacji. Prawdopodobnie jesteśmy blisko nasycenia.

Rozkazałem Codexowi, aby to zostało zrobione. Dane od @EpochAIResearch.

1,4K

Najlepsze

Ranking

Ulubione