Я всегда предполагал, что именно так будут функционировать LLM, потому что именно так я (и, предположительно, большинство других) думаю Я предполагаю, что базовая единица мысли — это не "слова", а некое гештальт-векторное мышление, и мы все просто разработали очень быстрый способ перевода этих мыслей в слова, потому что слова более удобны для общения, чем мыслительные кусочки Это всегда была моя проблема с дискурсом "некоторые люди не имеют внутреннего монолога!" Просто не имеет смысла, чтобы слова были базовой единицей, на которой люди думают. Это в 1000 раз быстрее думать в образах или этих мыслительных кусочках или чем-то подобном Я предполагаю, что это просто кажется, что люди думают словами, потому что, когда они описывают то, о чем думают, им нужно переводить мыслительные кусочки в слова — так мы и общаемся — и этот процесс преобразует их реальные мысли в форму монолога Но имеет смысл думать словами только тогда, когда вам нужно выразить какую-то форму общения. В противном случае это не очень эффективно А человеческие мозги невероятно эффективны
Simplifying AI
Simplifying AI23 мар., 00:54
🚨 СРОЧНО: Tencent убила парадигму "следующего токена". Tencent и Цинхуа выпустили CALM (Непрерывные Автогрессивные Языковые Модели), и это полностью разрушает парадигму следующего токена. LLM в настоящее время тратят огромные объемы вычислительных ресурсов на предсказание дискретных, отдельных токенов через огромный слой softmax словаря. Это медленно и плохо масштабируется. CALM полностью обходит словарь. Он использует высококачественный автоэнкодер для сжатия фрагментов текста в один непрерывный вектор с точностью восстановления 99,9%. Теперь модель предсказывает "следующий вектор" в непрерывном пространстве. Цифры на самом деле безумные: - Каждый генеративный шаг теперь несет в 4 раза больше семантической пропускной способности. - Вычислительные затраты на обучение снижены на 44%. - Узкое место softmax полностью устранено. Мы буквально наблюдаем, как языковые модели эволюционируют от ввода дискретных символов к потоковому воспроизведению непрерывных мыслей. Это меняет всю траекторию AI.
Я просто комментирую механизм, описанный здесь, кстати, а не саму технологию от Tencent или что-то в этом роде. Я предполагаю, что переход от векторов к токенам будет довольно медленным/неэффективным в течение длительного времени, и я сомневаюсь, что это РЕВОЛЮЦИОНИЗИРУЕТ ИИ или что-то подобное в краткосрочной перспективе.
301