今年は分散型AIトレーニングにおいて非常にエキサイティングな進展がたくさんあります。分散型トレーニングが「不可能」から「投資可能」へと変わっている理由について、私の見解を述べます。 🧵👇
当初、AI訓練プロトコルの最新技術のため分散型トレーニングは不可能と考えられていました。企業は高性能なデータセンターで高性能ハードウェアから成果を上げました――低速な消費者向けインターネットで消費者向けハードウェアでトレーニングするのは無謀に思え、その議論は技術的にも十分に理にかなっていました。
しかし、非常に迅速に分散型トレーニングが実例によって示されました。@GoogleDeepMind年に開発されたDiLoCoのような「低通信」アルゴリズムは、@PrimeIntellect、@NousResearch、@tplr_aiなどの企業によって分散型で訓練されたモデルの実証に使われました。 これらのデータ並列アルゴリズムは、モデル全体をノードのメモリに保持し、データを分割します。 昨年10月、@Pluralisはトランスを実際の層に分解してトレーニングを行う最初の*モデル並列*ランを実証しました。
@AnthropicAIの共同創業者である@jackclarkSFから、@beffjezos、AI研究の非営利団体@EpochAIResearchまで、多くの人々が分散型トレーニングに注目しています。 Epochの計算によると、分散型トレーニング計算は前年比で20倍に成長しています。 中央集権的なフロンティアランの1000倍は小さいですが、その差を4倍の速度で縮めています。
190