🚨 NVIDIA 剛剛做到了不可能的事。 他們在 10 兆個標記上訓練了一個 120 億參數的語言模型,完全使用 4 位精度。 這個模型叫做 NVFP4,可能會重新定義前沿 AI 模型的訓練方式。 這為什麼重要: • NVFP4 提供 2–3 倍更快的數學吞吐量,並且比 FP8 少 50% 的內存 • 準確性?幾乎相同。(MMLU-Pro: FP8 = 62.62%,NVFP4 = 62.58%) • 穩定性問題?通過隨機哈達瑪變換、隨機取整和 2D 縮放解決 • 完全在 NVIDIA Blackwell GPU 上訓練,首次 4 位運行在 10T 標記上穩定 這是大型 4 位預訓練成功的首次示範,且沒有損失準確性。 下一代前沿模型將會更快、更便宜、更環保,且不妥協。