DApp Store | Web3 Hub für Ereignisse und Spiele

Trend-Themen

Die Inferenzberechnung wird bis Ende dieses Jahrzehnts voraussichtlich eine massive Rechenlast darstellen. Ich denke, sie wird viel größer sein als das Training (insbesondere wenn man RL-Rollouts / Inferenzbedarfe für das Training berücksichtigt). Und es ist immer noch ein offenes Spielfeld in Bezug auf die Hardware, die Plattformen und die Modelle. Es wird auch zunehmend klar, dass die Menschen bereit sind, einen Aufpreis für reduzierte Latenz zu zahlen. Auf der Hardware-Seite gibt es mehrere interessante Richtungen, die man im Auge behalten sollte: - SRAM-ähnliche Setups scheinen vielversprechend zu sein (GPT Spark auf Cerebras, Groq-Akquisition durch Nvidia) - Disaggregierte Systeme (Vorbefüllung auf einer Maschine / Prozessor, Generierung auf einer anderen) machen wahrscheinlich viel Sinn. Die rechnerischen Eigenschaften von Vorbefüllung vs. Dekodierung sind so unterschiedlich, dass eine Spezialisierung auf Hardware-Ebene Effizienzgewinne bringen wird. - Ich würde auch exotischere Technologien wie den Taalas-Chip / Near-Memory-Computing / usw. nicht ausschließen. Auch wenn sie noch ziemlich weit von einer großflächigen Bereitstellung entfernt sind, könnte der wirtschaftliche Druck auf Effizienzgewinne ein Katalysator sein. Auf der Algorithmus- / Architekturseite: - Fast jedes große Open-Weights-Modell hat mindestens eine Optimierung, die es schneller für die Inferenz macht. Ob es sich um MoE, SSM (oder andere hybride Varianten) oder gleitende Fenster oder spärliche Aufmerksamkeit handelt. Es gibt hier mehr Unterschiede als vor einem Jahr. Und es wird interessant sein zu sehen, wo wir konvergieren. - Werden Diffusionsmodelle die Vorbefüllung / Dekodierung vereinheitlichen? - Ich glaube immer noch, dass es große Gewinne bei der weiteren Co-Design von Modell zu Hardware und Arbeitslast zu erzielen gibt. Ich denke auch nicht, dass wir in Zukunft eine Lösung haben werden, die für alle passt: - Cloud-basierte Modelle könnten sehr unterschiedlich aussehen als edge-optimierte Modelle. - Modelle könnten immer mehr für die Hardware, auf der sie bereitgestellt werden, co-gestaltet werden. - Es wird mindestens einen Regler geben, der Latenz und Energieeffizienz / Kosten gegeneinander abwägt.

Top

Ranking

Favoriten