С учетом надвигающегося цунами спроса на токены, существуют значительные возможности для организации базовой памяти+вычислений *именно так*, как это нужно для LLM. Основное и неочевидное ограничение заключается в том, что из-за процесса производства чипов вы получаете два совершенно разных пула памяти (с различными физическими реализациями): 1) встроенная SRAM, которая находится непосредственно рядом с вычислительными блоками, она невероятно быстрая, но с очень низкой емкостью, и 2) внешняя DRAM, которая имеет чрезвычайно высокую емкость, но содержимое которой можно извлечь только через длинную соломинку. Кроме того, есть много деталей архитектуры (например, систолические массивы), численные методы и т.д. Проектирование оптимального физического субстрата, а затем организация памяти+вычислений по верхним объемным рабочим процессам LLM (инференс, предзаполнение/декодирование, обучение/донастройка и т.д.) с наилучшей пропускной способностью/задержкой/$ вероятно, является самой интересной интеллектуальной задачей сегодняшнего дня с наибольшими наградами (\cite 4.6T от NVDA). Все это для того, чтобы получить много токенов, быстро и дешево. Можно утверждать, что рабочий процесс, который может иметь наибольшее значение (декодирование инференса *и* по длинным контекстам токенов в плотных агентских циклах) является тем, который труднее всего достичь одновременно для ~обоих лагерей того, что существует сегодня (HBM-первый, соседний с NVIDIA, и SRAM-первый, соседний с Cerebras). В любом случае, команда MatX на уровне A++, поэтому мне приятно иметь небольшое участие и поздравляю с привлечением средств!