Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ця таблиця вже застаріла, і ніхто про неї не говорить. Таблиця лідерів показує «Anthropic Opus 4.5» на рівні 76,1%. Opus 4.6 був запущений 5 лютого, через день після публікації цих результатів у Perplexity. У власних нотатках про релізи Anthropic зазначено, що Opus 4.6 «покращує як BrowseComp, так і DeepSearchQA». На BrowseComp це покращення склало 16 відсоткових пунктів (67,8% проти 84,0%). Поки що у нас немає показника DeepSearchQA, але якщо стрибок буде хоча б удвічі меншим, Opus 4.6 Selfalone буде вище 79,5% Perplexity. Ось де починається цікаво. Advanced Deep Research від Perplexity виконує всі запити на Opus 4.5. Це підтверджено в їхньому власному оголошенні. Opus 4.6 вже доступний у API Perplexity для Comet, але Deep Research ще не перейшла. Отже, «найсучасніший» результат, який Кобейсі називає терміновою новиною, був порівняний із моделлю, яку замінили через 24 години. Обрамлення «Perplexity beats Anthropic» також приховує той факт, що рушій Perplexity Є антропічним. Кожен запит Advanced Deep Research запускає Opus 4.5 через агентний пошуковий пристрій Perplexity. Антропічна — це фундамент. Розгубленість — це риштування. Різниця у 3,4 пункти між ними (79,5% проти 76,1%) — це цінність конвеєра пошуку Perplexity поверх логік Anthropic. Ось-ось стануться три речі. Anthropic подає Opus 4.6 до таблиці лідерів. Perplexity підвищує рівень Deep Research з 4.5 до 4.6. І весь цей графік перемішується за кілька тижнів. Ділитися знімком еталонної гонки посеред кроку і назвати її «breaking» — ось чому ви отримуєте 186 тис. переглядів і жодної інсайтності.

Найкращі

Рейтинг

Вибране