Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.
Alibaba отправила четыре небольших модели Qwen 3.5 с приемом, заимствованным из их модели 397B: гибридное внимание Gated DeltaNet.
Три слоя линейного внимания на каждый слой полного внимания.
Линейные слои обрабатывают рутинные вычисления с постоянным использованием памяти. Полные слои внимания активируются только тогда, когда важна точность.
Это соотношение 3:1 поддерживает стабильное использование памяти, в то время как качество остается высоким, именно поэтому даже модель 0.8B поддерживает контекстное окно в 262 000 токенов.
Каждая модель обрабатывает текст, изображения и видео нативно.
Без адаптера, прикрепленного позже. Визуальный кодировщик использует 3D-свёртки для захвата движения в видео, а затем объединяет признаки из нескольких слоев, а не только из последнего.
Модель 9B обходит GPT-5-Nano на 13 пунктов по многомодальному пониманию, на 17 пунктов по визуальной математике и на 30 пунктов по разбору документов. Модель 0.8B работает на телефоне и обрабатывает видео. Модель 4B помещается в 8 ГБ видеопамяти и действует как многомодальный агент. Все четыре модели имеют лицензию Apache 2.0.
Если эта архитектура сохранится, пространство небольших моделей только что стало гонкой возможностей, а не гонкой размеров.
Год назад запуск многомодальной модели локально означал модель 13B+ и серьезный GPU.
Теперь модель 4B с контекстом 262K обрабатывает текст, изображения и видео на потребительском оборудовании.
Разрыв между крайними моделями и флагманскими моделями сокращается быстрее, чем разрыв между флагманами и людьми.
Топ
Рейтинг
Избранное
