🔥 Exactement. Templar a changé ma façon de penser l'infrastructure AI. Je n'attendais pas grand-chose de l'IA décentralisée, mais voir @tplr_ai entraîner un modèle de 72B sur 1,1T de tokens à travers ~70 nœuds sans autorisation sur Bittensor ( $TAO). Rien que cela est déjà inhabituel, mais ce qui a vraiment changé mon avis, c'est la façon dont ils ont réussi à le faire. - À cette échelle, l'entraînement est limité par la coordination. Normalement, vous poussez ~280 Go de données par étape de synchronisation entre les nœuds, ce qui rend l'entraînement décentralisé pratiquement mort à l'arrivée. - @tplr_ai a compressé cela à ~2,2 Go et a considérablement réduit la fréquence de synchronisation en utilisant SparseLoCo. Quand je regarde cela, je vois qu'ils éliminent le goulot d'étranglement principal qui a tué chaque tentative précédente 🤯. C'est pourquoi je pense que qualifier cela de moment DeepSeek n'est en fait pas exagéré. DeepSeek a montré que les modèles peuvent être entraînés à moindre coût. Templar montre qu'ils peuvent être entraînés sans coordination centrale du tout. -> Ce sont deux directions très différentes, et celle-ci semble structurellement plus difficile à concurrencer. Un autre signal que je ne néglige pas : quand des personnes comme Jack Clark d'Anthropic le présentent publiquement comme une véritable infrastructure : - D'après mon expérience, ce genre de validation vient généralement après que quelque chose fonctionne déjà, pas avant. - C'est encore en pré-entraînement. Le véritable avantage en IA vient de l'après-entraînement, RLHF, boucles d'alignement, en gros là où les modèles deviennent réellement utiles. Templar se dirige là-bas ensuite avec Grail, et pour moi, c'est le véritable test. S'ils peuvent décentraliser cette couche aussi, alors nous ne parlons plus de calcul décentralisé, ils parlent d'un pipeline de production AI entièrement sans autorisation. Ce qui fait que Templar se distingue pour moi, c'est le timing et la direction qu'ils ont choisis. 1/ Ils se sont attaqués à la coordination alors que toute l'industrie de l'IA atteint discrètement des limites d'échelle. - C'est un pari très différent, et généralement ceux qui attaquent les contraintes, pas les tendances, sont ceux qui comptent plus tard. 2/ Un autre catalyseur que je vois est le design sans autorisation. - La plupart des systèmes d'IA décentralisés limitent encore la participation d'une manière ou d'une autre, ce qui tue les effets de réseau tôt. - Templar est allé complètement ouvert dès le départ, ce qui signifie que si ce modèle fonctionne, il ne se contente pas de se développer de manière linéaire, mais se cumule avec plus de contributeurs, plus d'expérimentations, plus de cas limites résolus en parallèle. Aussi, le fait qu'ils construisent vers l'après-entraînement (couche RL) me dit qu'ils comprennent où se trouve la véritable valeur. Le pré-entraînement attire l'attention, mais l'après-entraînement est là où les modèles deviennent utilisables, collants et monétisables. S'ils réussissent ici, ils commencent à posséder une partie de la couche d'intelligence elle-même. 3/ Ma prédiction basée sur cela : À court terme, la plupart des gens vont encore sous-estimer cela parce que l'écart de qualité des modèles par rapport aux laboratoires centralisés sera l'argument facile. Mais avec le temps, je pense que Templar devient : - une couche backend pour le développement AI ouvert. - un réseau de coordination pour le calcul distribué. - et finalement un marché pour le raffinement de l'intelligence. Pas dominant du jour au lendemain, mais discrètement intégré partout. Et si cela se réalise, le potentiel vient de devenir le système sur lequel tout le monde peut construire quand ils ne veulent pas du tout dépendre de @OpenAI.
templar
templaril y a 22 heures
Cette semaine dans le @theallinpod, @chamath a demandé au PDG de @nvidia, Jensen Huang, au sujet de l'entraînement d'IA décentralisée, qualifiant notre exécution Covenant-72B de "réalisation technique plutôt folle." Une correction : ce sont 72 milliards de paramètres, pas quatre. Entraîné sans autorisation par plus de 70 contributeurs sur Internet classique. Le plus grand modèle jamais pré-entraîné sur une infrastructure entièrement décentralisée. La réponse de Jensen vaut également la peine d'être entendue.
@tplr_ai Les Chads fournissent beaucoup d'infos précieuses sur l'écosystème Bittensor : @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @andyyy @eliz883
Karamata_ 💎
Karamata_ 💎il y a 15 heures
🔥 Exactement. Templar a changé ma façon de penser l'infrastructure AI. Je n'attendais pas grand-chose de l'IA décentralisée, mais voir @tplr_ai entraîner un modèle de 72B sur 1,1T de tokens à travers ~70 nœuds sans autorisation sur Bittensor ( $TAO). Rien que cela est déjà inhabituel, mais ce qui a vraiment changé mon avis, c'est la façon dont ils ont réussi à le faire. - À cette échelle, l'entraînement est limité par la coordination. Normalement, vous poussez ~280 Go de données par étape de synchronisation entre les nœuds, ce qui rend l'entraînement décentralisé pratiquement mort à l'arrivée. - @tplr_ai a compressé cela à ~2,2 Go et a considérablement réduit la fréquence de synchronisation en utilisant SparseLoCo. Quand je regarde cela, je vois qu'ils éliminent le goulot d'étranglement principal qui a tué chaque tentative précédente 🤯. C'est pourquoi je pense que qualifier cela de moment DeepSeek n'est en fait pas exagéré. DeepSeek a montré que les modèles peuvent être entraînés à moindre coût. Templar montre qu'ils peuvent être entraînés sans coordination centrale du tout. -> Ce sont deux directions très différentes, et celle-ci semble structurellement plus difficile à concurrencer. Un autre signal que je ne néglige pas : quand des personnes comme Jack Clark d'Anthropic le présentent publiquement comme une véritable infrastructure : - D'après mon expérience, ce genre de validation vient généralement après que quelque chose fonctionne déjà, pas avant. - C'est encore en pré-entraînement. Le véritable avantage en IA vient de l'après-entraînement, RLHF, boucles d'alignement, en gros là où les modèles deviennent réellement utiles. Templar se dirige là-bas ensuite avec Grail, et pour moi, c'est le véritable test. S'ils peuvent décentraliser cette couche aussi, alors nous ne parlons plus de calcul décentralisé, ils parlent d'un pipeline de production AI entièrement sans autorisation. Ce qui fait que Templar se distingue pour moi, c'est le timing et la direction qu'ils ont choisis. 1/ Ils se sont attaqués à la coordination alors que toute l'industrie de l'IA atteint discrètement des limites d'échelle. - C'est un pari très différent, et généralement ceux qui attaquent les contraintes, pas les tendances, sont ceux qui comptent plus tard. 2/ Un autre catalyseur que je vois est le design sans autorisation. - La plupart des systèmes d'IA décentralisés limitent encore la participation d'une manière ou d'une autre, ce qui tue les effets de réseau tôt. - Templar est allé complètement ouvert dès le départ, ce qui signifie que si ce modèle fonctionne, il ne se contente pas de se développer de manière linéaire, mais se cumule avec plus de contributeurs, plus d'expérimentations, plus de cas limites résolus en parallèle. Aussi, le fait qu'ils construisent vers l'après-entraînement (couche RL) me dit qu'ils comprennent où se trouve la véritable valeur. Le pré-entraînement attire l'attention, mais l'après-entraînement est là où les modèles deviennent utilisables, collants et monétisables. S'ils réussissent ici, ils commencent à posséder une partie de la couche d'intelligence elle-même. 3/ Ma prédiction basée sur cela : À court terme, la plupart des gens vont encore sous-estimer cela parce que l'écart de qualité des modèles par rapport aux laboratoires centralisés sera l'argument facile. Mais avec le temps, je pense que Templar devient : - une couche backend pour le développement AI ouvert. - un réseau de coordination pour le calcul distribué. - et finalement un marché pour le raffinement de l'intelligence. Pas dominant du jour au lendemain, mais discrètement intégré partout. Et si cela se réalise, le potentiel vient de devenir le système sur lequel tout le monde peut construire quand ils ne veulent pas du tout dépendre de @OpenAI.
@tplr_ai @AlgodTrading @CryptoWizardd @CryptoGodJohn @QuintenFrancois @Tanaka_L2 @Eli5defi @andyyy @MilkRoad @eliz883 👍
3,33K