Myslím, že je to dobrý způsob, jak si představit závod AI pomocí dlouholetého GPQA Diamond benchmarku. Vidíte, jak dlouho měl OpenAI toto pole jen pro sebe, vzestup (a pád) Meta, náhlé dohnání (a pak stagnace) xAI a příchod čínských LLM s otevřenými váhami.
Postgraduální test s Google-proof Q&A (GPQA) je série obtížných úloh s výběrem odpovědí, které mají za cíl ověřit pokročilé znalosti. Neodborníci s přístupem k internetu mají 34 % správných hodnot, PhD s přístupem k internetu 65–70 % ve svém oboru. Pravděpodobně jsme blízko saturace
Nařídil jsem Kodexu, aby to bylo vyrobeno. Data z @EpochAIResearch.
1,4K