一站式 Web3 探索中心 | 去中心化應用商店 & Web3 線下活動 | OKX

熱門話題

🚨 NVIDIA 剛剛做到了不可能的事。他們在 10 兆個標記上訓練了一個 120 億參數的語言模型，完全使用 4 位精度。這個模型叫做 NVFP4，可能會重新定義前沿 AI 模型的訓練方式。這為什麼重要： • NVFP4 提供 2–3 倍更快的數學吞吐量，並且比 FP8 少 50% 的內存 • 準確性？幾乎相同。（MMLU-Pro: FP8 = 62.62%，NVFP4 = 62.58%） • 穩定性問題？通過隨機哈達瑪變換、隨機取整和 2D 縮放解決 • 完全在 NVIDIA Blackwell GPU 上訓練，首次 4 位運行在 10T 標記上穩定這是大型 4 位預訓練成功的首次示範，且沒有損失準確性。下一代前沿模型將會更快、更便宜、更環保，且不妥協。