Tópicos em alta
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Ramin Hasani
Olha 👌🏻 isso

Sanchit monga5 de mar., 11:58
Em apenas 48 horas em @RunAnywhereAI construímos o MetalRT: superando @Apple em seu próprio jogo e entregando o motor de inferência LLM mais RÁPIDO do mercado para Apple Silicon atualmente.
- Decodificação de 570 tok/s @liquidai LFM 2.5-1.2B 4-bit
- Decodificação de 658 tok/s @Alibaba_Qwen Qwen3-0.6B, 4 bits
- 6,6 ms de tempo até o primeiro token
- 1.19× mais rápido que o próprio MLX da Apple (arquivos de modelo idênticos)
- 1,67× mais rápido que llama.cpp em média
Arrasamos com Apple MLX, llama.cpp, uzu (da TryMirai) e Ollama em quatro modelos diferentes de 4 bits, incluindo o LFM2.5-1.2B otimizado para o dispositivo em um único M4 Max.
Estou animado para esse!
#ycombinator #runanywhere #ondeviceai #applesilicon #mlx

305
Lançamento realmente impressionante de miniaturas híbridas da equipe Qwen, como sempre!
As pessoas estão perguntando como eles se comparam em velocidade, latência e memória aos LFMs da @liquidai para implantação no dispositivo?
Aqui está um rápido perfil do Apple M3 Ultra:
> LFM2.5-1.2B é 52% mais rápido em decodificação do que o Qwen3.5-0.8B.
> LFM2-700M é 71% mais rápido que o Qwen3.5-0.8B na decodificação
> LFM2-2.6B tem a mesma velocidade que Qwen3.5-2B na decodificação
> LFM2-700M usa 46% menos memória de pico que o Qwen3.5-0.8B
> LFM2-2.6B usa 21% menos memória de pico que Qwen3.5-2B
> preenchimento do lfms com o mesmo tamanho de parâmetro geralmente é 12% mais rápido que o Qwen3.5
Projetamos a série LFM2 com nossa abordagem de design meta IA de hardware no loop, que nos permite descobrir a arquitetura mais eficiente para um determinado processador sem sacrificar a qualidade.
Este teste é feito no Apple M3 Ultra, memória unificada de 512 GB
Configuração:
> 512 tokens de prompt, 128 tokens de geração,
> 5 testes por configuração
> Framework: MLX (mlx-lm / mlx-vlm)


Qwen2 de mar., 21:18
🚀 Apresentando a Série de Modelos Pequenos Qwen 3.5
Qwen3.5-0.8B · Qwen3.5-2B · Qwen3.5-4B · Qwen3.5-9B
✨ Mais inteligência, menos computação.
Esses pequenos modelos são construídos sobre a mesma base Qwen3.5 — multimodal nativo, arquitetura aprimorada, RL escalado:
• 0,8B / 2B → pequeno, rápido, ótimo para dispositivo de borda
• 4B → uma base multimodal surpreendentemente forte para agentes leves
• 9B → compacto, mas já diminuindo a distância com modelos muito maiores
E sim — também estamos lançando os modelos Base.
Esperamos que isso apoie melhor a pesquisa, a experimentação e a inovação industrial no mundo real.
Rosto de abraço:
ModelScope:

247
Melhores
Classificação
Favoritos
