Магазин DApp | Центр Web3 для подій та ігор

Актуальні теми

Ця діаграма тихо показує вам новий підхід для компаній, що розробляють ШІ, і ніхто про це не говорить. Cognition і Cursor починалися як обгортки, що працювали на Claude і GPT. Тепер подивіться на цей бенчмарк. SWE-1.6 від Cognition — 51,7%. Cursor's Composer-1.5 — 50.8%. Обидва знаходяться в межах досяжності від Claude Opus 4.6 з 53,6% і GPT-5.3-Codex з 56,8%. Жодна з компаній не навчала базову модель з нуля. Обидва використовували базові моделі з відкритим кодом і застосовували навчання з підкріпленням у реальних середовищах програмування. Свікс із Cognition сказав це безпосередньо на Hacker News: «дедалі менш важливі якості базової моделі, доки вона достатньо хороша, бо тоді RL і посттренінг беруть гору і є головною метою відмінності.» Це теза. Базова модель — це товар. RL-конвеєр, навчений на конкретному агентському упряжці, шаблонах використання інструментів, реальних сесіях користувачів — це захищений шар. Cognition навчила SWE-1.6 на їхньому упряжці Cascade з обчисленням RL на два порядки більшою потужністю, ніж у SWE-1.5. Cursor навчав Composer у середовищах live IDE з редагуванням файлів, семантичним пошуком і командами терміналу. Обидва разом розробили модель і продукт. Математика на стрибку розповідає саму історію. SWE-1.5 набрав 40,1%. SWE-1.6 набрав 51,7%. Та сама базова модель. Той самий висновок про 950 ток/с на Cerebras. Вся покращення на 11,6 пункта була отримана завдяки кращим рецептам реалістичного життя та більшій кількості обчислювальних ресурсів. Це швидший темп покращення, ніж більшість базових лабораторій отримують від попереднього масштабування. Це дві компанії за $10B+ (Cognition за $10.2B, Cursor за $29.3B), які незалежно сходяться до одного висновку: не потрібно будувати GPT-5, щоб конкурувати з GPT-5 у програмуванні. Вам потрібен масштабний RL поверх достатньо хорошої бази, спроектованої разом із інфраструктурою вашого агента. Рівень швидкості також має значення. Когніція працює зі швидкістю 950 ток/с через Cerebras. Composer працює зі швидкістю 250 ток/с. У агентних робочих процесах, де модель повторюється десятки разів за завдання, ця 4-кратна різниця в швидкості накопичується у суттєво різні користувацькі досвіди. Когніція — це швидкість ставок плюс точність, яка переважає лише точність. Питання, яке має турбувати OpenAI та Anthropic: якщо два стартапи можуть наблизитися до ваших найкращих моделей на RL на відкритому коді, що станеться, коли відкриті бази покращаться? Кожне покращення Llama чи Qwen безпосередньо надходить у конвеєр Cognition і Cursor. Фундаментальні лабораторії фактично субсидують власних конкурентів.

Найкращі

Рейтинг

Вибране