DApp Store | Hub da Web3 para eventos e jogos

Tópicos em alta

Esse gráfico já está desatualizado e ninguém está falando sobre ele. O ranking mostra "Anthropic Opus 4.5" com 76,1%. Opus 4.6 foi lançado em 5 de fevereiro, um dia após a Perplexity publicar esses resultados. As próprias notas de lançamento da Anthropic dizem que o Opus 4.6 "melhora tanto o BrowseComp quanto o DeepSearchQA." No BrowseComp, essa melhora foi de 16 pontos percentuais (67,8% contra 84,0%). Ainda não temos o número do DeepSearchQA, mas se o salto for ao menos metade desse tamanho, o Opus 4.6 independente estaria acima dos 79,5% do Perplexity. É aqui que fica interessante. A Advanced Deep Research da Perplexity executa todas as consultas no Opus 4.5. Isso é confirmado no próprio anúncio deles. Opus 4.6 já está disponível na API do Perplexity para Comet, mas o Deep Research ainda não mudou de lado. Assim, o resultado "de última geração" que Kobeissi chama de notícia de última hora foi comparado a um modelo que foi superado 24 horas depois. A enquadramento de "Perplexity vence Anthropic" também esconde o fato de que o motor de Perplexity É Anthropic. Toda consulta Advanced Deep Research executa o Opus 4.5 pelo harness de busca agente do Perplexity. Anthropic é a base. Perplexidade é o andaime. A diferença de 3,4 pontos entre eles (79,5% contra 76,1%) é o valor do pipeline de recuperação da Perplexity em cima do raciocínio da Anthropic. Três coisas estão prestes a acontecer. A Anthropic envia o Opus 4.6 para o rankingboard. Perplexidade atualiza o Deep Research de 4.5 para 4.6. E toda essa tabela é reorganizada em poucas semanas. Compartilhar um retrato de uma corrida de referência no meio do passo e chamar de "quebra" é como você consegue 186 mil visualizações e zero insight.

Melhores

Classificação

Favoritos