一站式 Web3 探索中心 | 去中心化应用商店 & Web3 线下活动

热门话题

上周，Karpathy 发布了终极指南，教你如何快速进入 LLMs。在这个项目中，你将构建所有基本要素，代码行数不超过 8k。 > 训练分词器——新的 Rust 实现 > 在 fineweb 上预训练一个变换器 LLM > 在多个指标上评估核心分数 > 中途训练——来自 smoltalk 的用户助手对话， > 多项选择题，工具使用 > SFT，然后在以下方面评估聊天模型： > 世界知识 MCQ（arc-e/c，mmlu） > 数学（gsm8k） > 代码（humaneval） > 可选地在 gsm8k 上对模型进行 RL，使用“grpo”。 > 高效推理： > KV 缓存，快速预填充/解码 > 工具使用（Python 解释器，沙盒环境） > 通过 CLI 或类似 ChatGPT 的 WebUI 访问 > 写一份单一的 Markdown 报告卡， > 总结并游戏化整个流程。你将构建的模型： > 仅使用旋转（不使用位置嵌入） > QK 归一化...