🚨 BREAKING: Стенфорд щойно випустив найнезручнішу статтю про логіку LLM. Це показує систематичне руйнування причин, чому LLM постійно зазнають невдач, навіть коли таблиці лідерів вказують, що вони ідеальні. Вони поділяють мислення на дві категорії: безтілесне (математика, логіка, здоровий глузд) і втілене (фізичний світ)... І ті самі невдачі трапляються всюди. Одне з найтривожніших відкриттів — це те, як часто моделі створюють неправдиві міркування... Моделі дадуть правильну остаточну відповідь, але їхнє пояснення повністю вигадане або логічно неправильне. Це буквально навчає нас довіряти фальшивому процесу прийняття рішень... Вони також страждають від фундаментальних архітектурних збоїв (руйнування під впливом легкої логіки) і збоїв стійкості (зміна одного слова у запиті перевертає всю відповідь). А втілене мислення? Ще гірше. LLM не мають жодної фізичної основи, тому вони передбачувано не справляються з базовою фізикою. Висновок: LLM мають достатньо аргументів, щоб звучати переконливо, але не настільки, щоб бути надійними. Ми впроваджуємо системи, які проходять бенчмарк, але безшумно провалюють у виробництві.