O Benchmark de IA de US$ 1 milhão Em vez de perguntar "está correto?" Isso pergunta: "alguém pagaria por isso?" Em 1 milhão de dólares em tarefas reais de especialistas, as melhores modelos completam apenas cerca de 40–48%. O melhor: Claude Opus-4.6. Grande lacuna não é conhecimento, é execução. Os modelos deixam de funcionar etapas, restrições e detalhes. A IA é poderosa. Só não é confiável de ponta a ponta ainda. Estou curioso para ver esse número crescer 📈
Link para o estudo:
177