Popularne tematy
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Myślę, że to dobry sposób na wizualizację wyścigu AI przy użyciu długożyjącego benchmarku GPQA Diamond.
Możesz zobaczyć, jak długo OpenAI miało pole dla siebie, wzrost (i upadek) Meta, nagłe dogonienie (a potem stagnacja) xAI oraz wejście otwartych wag chińskich LLM.
Test Q&A na poziomie magisterskim, odporny na Google (GPQA), to seria trudnych pytań wielokrotnego wyboru zaprojektowanych w celu sprawdzenia zaawansowanej wiedzy. Osoby niebędące ekspertami, mające dostęp do internetu, uzyskują 34% poprawnych odpowiedzi, a doktorzy z dostępem do internetu osiągają 65-70% w swojej specjalizacji. Prawdopodobnie jesteśmy blisko nasycenia.
Rozkazałem Codexowi, aby to zostało zrobione. Dane od @EpochAIResearch.
1,4K
Najlepsze
Ranking
Ulubione
