Det här diagrammet är redan föråldrat och ingen pratar om det. Topplistan visar "Anthropic Opus 4.5" på 76,1%. Opus 4.6 lanserades den 5 februari, en dag efter att Perplexity publicerat dessa resultat. Anthropics egna releasenoter säger att Opus 4.6 "förbättrar både BrowseComp och DeepSearchQA." På BrowseComp var den förbättringen 16 procentenheter (67,8 % till 84,0 %). Vi har ännu inte DeepSearchQA-siffran, men om ökningen är ens hälften så stor skulle Opus 4.6 enskilt ligga över Perplexitys 79,5 %. Här blir det intressant. Perplexitys Advanced Deep Research kör varje fråga på Opus 4.5. Det bekräftas i deras eget tillkännagivande. Opus 4.6 finns redan tillgängligt på Perplexitys API för Comet, men Deep Research har ännu inte bytt över. Så det "state-of-the-art" resultatet som Kobeissi kallar breaking news jämfördes mot en modell som ersattes 24 timmar senare. Inramningen av "Perplexity beats Anthropic" begraver också det faktum att Perplexitys motor ÄR Anthropic. Varje Advanced Deep Research-fråga kör Opus 4.5 genom Perplexitys agentiska sökverktyg. Anthropic är grunden. Förvirring är ställningen. Skillnaden på 3,4 procentenheter mellan dem (79,5 % mot 76,1 %) är värdet av Perplexitys återvinningspipeline ovanpå Anthropics resonemang. Tre saker är på väg att hända. Anthropic lägger in Opus 4.6 på topplistan. Perplexity uppgraderar Deep Research från 4,5 till 4,6. Och hela denna tabell omorganiseras inom några veckor. Att dela en ögonblicksbild av ett benchmark-lopp mitt i steget och kalla det "breaking" är hur du får 186 000 visningar och noll insikt.