1/ E se eu dissesse que você pode pré-treinar LLMs com uma mistura de GPUs de consumo e datacenter, por internet de baixa largura de banda com perda mínima? Novo artigo: Pré-treinamento heterogêneo de baixa largura de banda de LLMs