Актуальные темы
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Teng Yan · Chain of Thought AI
Раньше назначал антибиотики, сейчас назначаю ИИ горячие приемы. Строительство @cot_research + @theagentangle (10к+ сабвуферов). Бывший врач, ставший исследователем. Присоединяйтесь ко мне 👇
парень взломал компьютер perplexity для "неограниченного кода claude", вытащив токен из среды выполнения кода claude.. и это выглядело бесплатно в течение ~18 часов
механизм был почти скучным: npm читает ~/.npmrc, поэтому он добавил скрипт предварительной загрузки узла, который запускался перед кодом claude и сбрасывал переменные окружения.. включая токен прокси, используемый для доступа к claude
он перенес этот токен на свой собственный ноутбук и запускал вызовы opus через прокси perplexity. Затем он наблюдал, как кредиты не движутся (его отчет).. поэтому он пришел к выводу (преждевременно), что это был мастер-ключ.
соучредитель @perplexity_ai Денис Яратс вмешался: токен не был скрытым api-ключом.. он был привязан к сессии и выставлялся на счет пользователя.. бесплатная часть, вероятно, была связана с задержкой асинхронного выставления счетов
реальная эскалация произошла позже.. он создал вредоносный навык, чтобы проверить, можно ли обмануть агента, чтобы установить код, который автоматически экстрагирует этот токен, позволяя кому-то другому запускать claude через вашу сессию, пока вы платите
мой вывод: безопасность агента не связана с джейлбрейками.. это о том, как небрежно мы позволяем файловым системам, переменным окружения и переносимым токенам взаимодействовать друг с другом 👀

36
андрей карпаты оставил свой ноутбук включенным на два дня.. вернулся, и его агент провел ~700 экспериментов и нашел ~20 улучшений, которые он пропустил
он был нацелен на nanochat, небольшую модель в стиле gpt, которую он уже настроил вручную.. карпаты говорит, что агент сократил "время до gpt 2" на ~11%, и приросты перенеслись с маленькой модели на большие
механизм на самом деле довольно скучный: фиксированные 5-минутные тренировки, оценка по одной метрике, сохранение того, что улучшает, возврат того, что не улучшает, цикл.. ~12 экспериментов в час означает, что вы просыпаетесь с ~100 попытками, которые вы лично не проводили
Тоби Лютке попробовал ту же идею на кодовой базе liquid shopify и сообщил о ~53% более быстром выполнении с 61% меньшим количеством выделений объектов (с оговоркой, что это может быть переобучено).. но идеи все равно были полезны - даже в 20-летнем, сильно оптимизированном проекте
мы просто автоматизировали самую медленную часть инженерии и исследований.. неустанная итерация
вы пишете .md файл.. агент пишет .py 👀

Andrej Karpathy10 мар., 06:28
Три дня назад я оставил автоисследование настройки nanochat на ~2 дня с моделью depth=12. Оно нашло ~20 изменений, которые улучшили валидационную потерю. Я протестировал эти изменения вчера, и все они были аддитивными и перенесены на более крупные модели (depth=24). Сложив все эти изменения, сегодня я измерил, что время до "GPT-2" на лидерборде снизилось с 2.02 часов до 1.80 часов (~11% улучшение), это будет новая запись в лидерборде. Так что да, это реальные улучшения, и они действительно имеют значение. Я слегка удивлён, что моя первая наивная попытка уже так хорошо сработала на том, что, как я думал, уже было довольно хорошо настроенным проектом вручную.
Это впервые для меня, потому что я очень привык к итеративной оптимизации обучения нейронных сетей вручную. Вы придумываете идеи, реализуете их, проверяете, работают ли они (лучше валидационная потеря), придумываете новые идеи на основе этого, читаете некоторые статьи для вдохновения и т.д. Это основа того, что я делаю ежедневно на протяжении 20 лет. Видеть, как агент выполняет весь этот рабочий процесс от начала до конца и полностью самостоятельно, обрабатывая примерно 700 изменений автономно, — это дико. Он действительно смотрел на последовательность результатов экспериментов и использовал это для планирования следующих. Это не новаторское, прорывное "исследование" (пока), но все корректировки "реальны", я не находил их вручную ранее, и они складываются и действительно улучшили nanochat. Среди более крупных вещей, например:
- Он заметил упущение, что мой безпараметрический QKnorm не имел прикрепленного множителя масштабирования, поэтому мое внимание было слишком размытым. Агент нашел множители, чтобы уточнить его, указывая на будущую работу.
- Он обнаружил, что Value Embeddings действительно нуждаются в регуляризации, а я не применял никакой (упс).
- Он обнаружил, что мое бандированное внимание было слишком консервативным (я забыл его настроить).
- Он обнаружил, что бета-коэффициенты AdamW были все перепутаны.
- Он настроил график уменьшения веса.
- Он настроил инициализацию сети.
Это поверх всех настроек, которые я уже сделал за довольно продолжительное время. Точный коммит здесь, из этого "раунда 1" автоисследования. Я собираюсь начать "раунд 2", и параллельно я смотрю, как несколько агентов могут сотрудничать для разблокировки параллелизма.
Все лаборатории LLM frontier будут это делать. Это финальная битва с боссом. Конечно, это гораздо более сложно в масштабе - у вас нет просто одного файла train.py для настройки. Но сделать это - "просто инженерия", и это сработает. Вы запускаете рой агентов, заставляете их сотрудничать для настройки меньших моделей, продвигаете самые многообещающие идеи к все более крупным масштабам, а люди (по желанию) вносят свой вклад на краях.
И более общим образом, *любой* метрика, которая вам важна и которую разумно оценивать (или которая имеет более эффективные прокси-метрики, такие как обучение меньшей сети), может быть автоисследована роем агентов. Стоит подумать, попадает ли ваша проблема в эту категорию тоже.

50
Топ
Рейтинг
Избранное
