Tópicos populares
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Análise independente de modelos de IA e provedores de hospedagem - escolha o melhor modelo e provedor de API para seu caso de uso
A Alibaba lançou 4 novos modelos Qwen3.5 de 0.8B a 9B. O 9B (Raciocínio, 32 no Índice de Inteligência) é o modelo mais inteligente abaixo de 10B parâmetros, e o 4B (Raciocínio, 27) é o mais inteligente abaixo de 5B, mas ambos usam mais de 200M de tokens de saída para executar o Índice de Inteligência
@Alibaba_Qwen expandiu a família Qwen3.5 com quatro modelos densos menores: o 9B (Raciocínio, 32 no Índice de Inteligência), 4B (Raciocínio, 27), 2B (Raciocínio, 16) e 0.8B (Raciocínio, 9). Estes complementam os maiores modelos 397B, 27B, 122B A10B e 35B A3B lançados no início deste mês. Todos os modelos têm licença Apache 2.0, suportam 262K de contexto, incluem suporte nativo à visão e usam a mesma abordagem híbrida de pensamento/não pensamento unificada que o resto da família Qwen3.5
Resultados chave de benchmarking para as variantes de raciocínio:
➤ O 9B e o 4B são os modelos mais inteligentes em suas respectivas classes de tamanho, à frente de todos os outros modelos abaixo de 10B parâmetros. O Qwen3.5 9B (32) pontua aproximadamente o dobro dos próximos modelos mais próximos abaixo de 10B: Falcon-H1R-7B (16) e NVIDIA Nemotron Nano 9B V2 (Raciocínio, 15). O Qwen3.5 4B (27) supera todos esses, apesar de ter aproximadamente metade dos parâmetros. Todos os quatro modelos pequenos Qwen3.5 estão na fronteira de Pareto do gráfico Inteligência vs. Total de Parâmetros
➤ A geração Qwen3.5 representa um aumento material de inteligência em relação ao Qwen3 em todos os tamanhos de modelos abaixo de 10B, com ganhos maiores em contagens de parâmetros totais mais altas. Comparando variantes de raciocínio: o Qwen3.5 9B (32) está 15 pontos à frente do Qwen3 VL 8B (17), o 4B (27) ganha 9 pontos sobre o Qwen3 4B 2507 (18), o 2B (16) está 3 pontos à frente do Qwen3 1.7B (estimado 13), e o 0.8B (9) ganha 2.5 pontos sobre o Qwen3 0.6B (6.5).
➤ Todos os quatro modelos usam de 230 a 390M de tokens de saída para executar o Índice de Inteligência, significativamente mais do que ambos os irmãos maiores Qwen3.5 e os predecessores Qwen3. O Qwen3.5 2B usou ~390M de tokens de saída, o 4B usou ~240M, o 0.8B usou ~230M, e o 9B usou ~260M. Para contexto, o muito maior Qwen3.5 27B usou 98M e o modelo principal 397B usou 86M. Essas contagens de tokens também superam a maioria dos modelos de fronteira: Gemini 3.1 Pro Preview (57M), GPT-5.2 (xhigh, 130M) e GLM-5 Raciocínio (109M)
➤ AA-Omniscience é uma fraqueza relativa, com taxas de alucinação de 80-82% para o 4B e 9B. O Qwen3.5 4B pontua -57 em AA-Omniscience com uma taxa de alucinação de 80% e precisão de 12.8%. O Qwen3.5 9B pontua -56 com 82% de alucinação e 14.7% de precisão. Estes são marginalmente melhores do que seus predecessores Qwen3 (Qwen3 4B 2507: -61, 84% de alucinação, 12.7% de precisão), com a melhoria impulsionada principalmente por taxas de alucinação mais baixas em vez de maior precisão.
➤ Os modelos Qwen3.5 abaixo de 10B combinam alta inteligência com visão nativa em uma escala anteriormente indisponível. No MMMU-Pro (raciocínio multimodal), o Qwen3.5 9B pontua 69.2% e o 4B pontua 65.4%, à frente do Qwen3 VL 8B (56.6%), Qwen3 VL 4B (52.0%) e Ministral 3 8B (46.0%). O Qwen3.5 0.8B pontua 25.8%, o que é notável para um modelo abaixo de 1B
Outras informações:
➤ Janela de contexto: 262K tokens
➤ Licença: Apache 2.0
➤ Quantização: Os pesos nativos são BF16. A Alibaba não lançou quantizações GPTQ-Int4 de primeira parte para esses modelos pequenos, embora tenha feito para os modelos maiores da família Qwen3.5 lançados anteriormente (27B, 35B-A3B, 122B-A10B, 397B-A17B). Em quantização de 4 bits, todos os quatro modelos são acessíveis em hardware de consumo
➤ Disponibilidade: No momento da publicação, não há APIs sem servidor de primeira ou terceira parte hospedando esses modelos

8,54K
A Alibaba expandiu sua família de modelos Qwen3.5 com 3 novos modelos - o modelo 27B se destaca, marcando 42 no Índice de Análise de Inteligência Artificial e igualando modelos de pesos abertos 8-25x seu tamanho
@Alibaba_Qwen expandiu a família Qwen3.5 com três novos modelos ao lado do modelo principal de 397B lançado no início deste mês: o Qwen3.5 27B (Denso, marcando 42 no Índice de Inteligência), Qwen3.5 122B A10B (MoE, 42) e Qwen3.5 35B A3B (MoE, 37). Os dois modelos MoE (Mistura de Especialistas) ativam apenas uma fração dos parâmetros totais por passagem (10B de 122B e ~3B de 35B, respectivamente). O Índice de Inteligência é nossa métrica de síntese que incorpora 10 avaliações cobrindo raciocínio geral, tarefas agentivas, codificação e raciocínio científico.
Todos os modelos têm licença Apache 2.0, suportam nativamente 262K de contexto e retornam à arquitetura híbrida de pensamento/não pensamento unificada do Qwen3 original, após a Alibaba ter mudado para separar os pontos de verificação de Instrução e Raciocínio com as atualizações Qwen3 2507.
Resultados principais de benchmarking para as variantes de raciocínio:
➤ O Qwen3.5 27B marca 42 no Índice de Inteligência e é o modelo mais inteligente abaixo de 230B. O modelo mais próximo de tamanho similar é o GLM-4.7-Flash (31B total, 3B ativo) que marca 30. Modelos de pesos abertos de inteligência equivalente são 8-25x maiores em termos de parâmetros totais: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) e GLM-4.7 (357B, 42). Em precisão FP8, leva ~27GB para armazenar os pesos do modelo, enquanto na quantização de 4 bits você pode usar hardware de qualidade de laptop com 16GB+ de RAM
➤ O Qwen3.5 27B marca 1205 no GDPval-AA (Tarefas de Trabalho do Mundo Real Agentivas), colocando-o ao lado de modelos maiores. Para contexto, o MiniMax-M2.5 marca 1206, o GLM-4.7 (Raciocínio) marca 1200 e o DeepSeek V3.2 (Raciocínio) marca 1194. Isso é particularmente notável para um modelo de 27B de parâmetros e sugere uma forte capacidade agentiva para seu tamanho. O GDPval-AA testa modelos em tarefas do mundo real em 44 ocupações e 9 indústrias principais
➤ AA-Omniscience continua a ser uma fraqueza relativa em toda a família Qwen3.5, impulsionada principalmente por menor precisão em vez de taxa de alucinação. O Qwen3.5 27B marca -42 em AA-Omniscience, comparável ao MiniMax-M2.5 (-40), mas atrás do DeepSeek V3.2 (-21) e do GLM-4.7 (-35). Embora a taxa de alucinação do Qwen3.5 27B (80%) seja menor que a dos pares (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), sua precisão também é menor em 21% contra 34% para o DeepSeek V3.2 e 29% para o GLM-4.7. Isso é provavelmente uma consequência do tamanho do modelo - geralmente observamos que modelos com mais parâmetros totais têm melhor desempenho em precisão no AA-Omniscience, já que a recuperação de conhecimento mais ampla se beneficia de contagens de parâmetros maiores
➤ O Qwen3.5 27B é equivalentemente inteligente ao Qwen3.5 122B A10B. O 122B A10B é um modelo de Mistura de Especialistas que ativa apenas 10B de seus 122B de parâmetros totais por passagem. O modelo 27B lidera no GDPval-AA (1205 Elo contra 1145 Elo) e ligeiramente no TerminalBench (+1.5 p.p.), enquanto o modelo 122B lidera no SciCode (+2.5 p.p.), HLE (+1.2 p.p.) e tem uma taxa de alucinação mais baixa (Omniscience -40 contra -42)
➤ O Qwen3.5 35B A3B (Raciocínio, 37) é o modelo mais inteligente com ~3B de parâmetros ativos, 7 pontos à frente do GLM-4.7-Flash (30). Outros modelos nesta categoria de ~3B ativos incluem Qwen3 Coder Next (80B total, 28), Qwen3 Next 80B A3B (27) e NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ O Qwen3.5 27B usou 98M de tokens de saída para executar o Índice de Inteligência, custando ~$299 via API da Alibaba Cloud. Isso é notavelmente alto em uso de tokens em comparação com modelos de inteligência similar: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) e até mesmo o maior Qwen3.5 397B (86M).
Outras informações:
➤ Janela de contexto: 262K tokens (extensível para 1M via YaRN)
➤ Licença: Apache 2.0
➤ Preços da API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 por 1M de tokens de entrada/saída

3,77K
Kling 3.0 1080p (Pro) ocupa o 1º lugar em Texto para Vídeo em ambas as tabelas de classificação Com Áudio e Sem Áudio na Arena de Vídeo de Análise Artificial, superando Grok Imagine, Runway Gen-4.5 e Veo 3.1!
Em Imagem para Vídeo, Kling 3.0 1080p (Pro) ocupa o 4º lugar na tabela de classificação Com Áudio e o 6º lugar em Sem Áudio, ficando atrás de Grok Imagine e PixVerse V5.6.
Kling 3.0 é o mais recente lançamento da @Kling_ai, representando um grande avanço em relação aos seus modelos Kling 2.6. O modelo está disponível nas qualidades 1080p (Pro) e 720p (Standard) e suporta gerações de até 15 segundos, bem como geração de áudio nativo.
Kling também lançou o Kling 3.0 Omni, um modelo multimodal que vai além da geração de vídeo para suportar entradas de imagem e vídeo, edição de vídeo e geração de vídeo em um único modelo unificado. Kling 3.0 Omni 1080p (Pro) e Omni 720p (Standard) também apresentam um desempenho forte, com Omni 1080p (Pro) ocupando o 2º lugar em Texto para Vídeo Com Áudio e o 4º lugar em Sem Áudio.
Kling 3.0 está disponível através do aplicativo Kling AI e via API no @fal. Kling 3.0 1080p (Pro) custa ~$13/min sem áudio e ~$20/min com áudio, enquanto 720p (Standard) custa cerca de ~$10/min e ~$15/min, respetivamente. Sem áudio, 1080p (Pro) é comparável ao Veo 3.1 a $12/min, embora com um prémio significativo em relação ao Kling 2.5 Turbo e Grok Imagine a $4.20/min.
Veja abaixo as comparações entre Kling 3.0 1080p (Pro) e outros modelos líderes na nossa Arena de Vídeo de Análise Artificial 🧵

286
Top
Classificação
Favoritos
