Магазин DApp | Web3-центр мероприятий и игр

Актуальные темы

Teng Yan · Chain of Thought AI

Раньше назначал антибиотики, сейчас назначаю ИИ горячие приемы. Строительство @cot_research + @theagentangle (10к+ сабвуферов). Бывший врач, ставший исследователем. Присоединяйтесь ко мне 👇

андрей карпаты оставил свой ноутбук включенным на два дня.. вернулся, и его агент провел ~700 экспериментов и нашел ~20 улучшений, которые он пропустил он был нацелен на nanochat, небольшую модель в стиле gpt, которую он уже настроил вручную.. карпаты говорит, что агент сократил "время до gpt 2" на ~11%, и приросты перенеслись с маленькой модели на большие механизм на самом деле довольно скучный: фиксированные 5-минутные тренировки, оценка по одной метрике, сохранение того, что улучшает, возврат того, что не улучшает, цикл.. ~12 экспериментов в час означает, что вы просыпаетесь с ~100 попытками, которые вы лично не проводили Тоби Лютке попробовал ту же идею на кодовой базе liquid shopify и сообщил о ~53% более быстром выполнении с 61% меньшим количеством выделений объектов (с оговоркой, что это может быть переобучено).. но идеи все равно были полезны - даже в 20-летнем, сильно оптимизированном проекте мы просто автоматизировали самую медленную часть инженерии и исследований.. неустанная итерация вы пишете .md файл.. агент пишет .py 👀

Три дня назад я оставил автоисследование настройки nanochat на ~2 дня с моделью depth=12. Оно нашло ~20 изменений, которые улучшили валидационную потерю. Я протестировал эти изменения вчера, и все они были аддитивными и перенесены на более крупные модели (depth=24). Сложив все эти изменения, сегодня я измерил, что время до "GPT-2" на лидерборде снизилось с 2.02 часов до 1.80 часов (~11% улучшение), это будет новая запись в лидерборде. Так что да, это реальные улучшения, и они действительно имеют значение. Я слегка удивлён, что моя первая наивная попытка уже так хорошо сработала на том, что, как я думал, уже было довольно хорошо настроенным проектом вручную. Это впервые для меня, потому что я очень привык к итеративной оптимизации обучения нейронных сетей вручную. Вы придумываете идеи, реализуете их, проверяете, работают ли они (лучше валидационная потеря), придумываете новые идеи на основе этого, читаете некоторые статьи для вдохновения и т.д. Это основа того, что я делаю ежедневно на протяжении 20 лет. Видеть, как агент выполняет весь этот рабочий процесс от начала до конца и полностью самостоятельно, обрабатывая примерно 700 изменений автономно, — это дико. Он действительно смотрел на последовательность результатов экспериментов и использовал это для планирования следующих. Это не новаторское, прорывное "исследование" (пока), но все корректировки "реальны", я не находил их вручную ранее, и они складываются и действительно улучшили nanochat. Среди более крупных вещей, например: - Он заметил упущение, что мой безпараметрический QKnorm не имел прикрепленного множителя масштабирования, поэтому мое внимание было слишком размытым. Агент нашел множители, чтобы уточнить его, указывая на будущую работу. - Он обнаружил, что Value Embeddings действительно нуждаются в регуляризации, а я не применял никакой (упс). - Он обнаружил, что мое бандированное внимание было слишком консервативным (я забыл его настроить). - Он обнаружил, что бета-коэффициенты AdamW были все перепутаны. - Он настроил график уменьшения веса. - Он настроил инициализацию сети. Это поверх всех настроек, которые я уже сделал за довольно продолжительное время. Точный коммит здесь, из этого "раунда 1" автоисследования. Я собираюсь начать "раунд 2", и параллельно я смотрю, как несколько агентов могут сотрудничать для разблокировки параллелизма. Все лаборатории LLM frontier будут это делать. Это финальная битва с боссом. Конечно, это гораздо более сложно в масштабе - у вас нет просто одного файла train.py для настройки. Но сделать это - "просто инженерия", и это сработает. Вы запускаете рой агентов, заставляете их сотрудничать для настройки меньших моделей, продвигаете самые многообещающие идеи к все более крупным масштабам, а люди (по желанию) вносят свой вклад на краях. И более общим образом, *любой* метрика, которая вам важна и которую разумно оценивать (или которая имеет более эффективные прокси-метрики, такие как обучение меньшей сети), может быть автоисследована роем агентов. Стоит подумать, попадает ли ваша проблема в эту категорию тоже.

Топ

Рейтинг

Избранное