Trend Olan Konular
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Yapay zeka modellerinin ve barındırma sağlayıcılarının bağımsız analizi - kullanım durumunuz için en iyi modeli ve API sağlayıcısını seçin
Alibaba, Qwen3.5 model ailesini 3 yeni modelle genişletti - 27B modeli öne çıkıyor; Yapay Analiz Zeka Endeksi'nde 42 puan aldı ve açık ağırlıklı modelleri 8-25 kat büyüklüğünde eşleştiriyor
@Alibaba_Qwen, bu ayın başında piyasaya sürülen 397B amiral gemisi ile birlikte üç yeni model ile Qwen3.5 ailesini genişletti: Qwen3.5 27B (Dense, Intelligence Index'de 42 puan), Qwen3.5 122B A10B (MoE, 42) ve Qwen3.5 35B A3B (MoE, 37). İki MoE (Uzmanların Karışımı) modeli, ileri geçişte toplam parametrelerin sadece bir kısmını aktive eder (sırasıyla 122B'nin 10B ve 35B'nin ~3B'si). Zeka İndeksi, genel akıl yürütme, ajanik görevler, kodlama ve bilimsel akıl yürütmeyi kapsayan 10 değerlendirmeyi içeren sentez metriklerimizdir.
Tüm modeller Apache 2.0 lisanslıdır, 262K bağlamını yerel olarak destekler ve Alibaba'nın Qwen3 2507 güncellemeleriyle Talimat ve Akıl yürütme kontrol noktalarını ayırmasına geçişinden sonra orijinal Qwen3'ten birleşik düşünme/düşünme dışı hibrit mimarisine geri dönüyor.
Akıl yürütme varyantları için temel kıyaslama sonuçları:
➤ Qwen3.5 27B, Zeka Endeksi'nde 42 puan alıyor ve 230B altındaki en zeki modeldir. Benzer boyuttaki en yakın model GLM-4.7-Flash (toplamda 31B, 3B aktif) ve 30 puan alıyor. Eşdeğer zekaya sahip açık ağırlıklı modeller toplam parametreler açısından 8-25 kat daha büyüktür: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42) ve GLM-4.7 (357B, 42). FP8 hassasiyetinde model ağırlıklarını depolamak ~27GB gerektirirken, 4-bit quantizasyonda 16GB+ RAM ile dizüstü kalitede donanım kullanılabilir
➤ Qwen3.5 27B, GDPval-AA (Ajanik Gerçek Dünya İş Görevleri) üzerinden 1205 puan alarak daha büyük modellerin yanına koyulmuştur. Bağlam için, MiniMax-M2.5 1206, GLM-4.7 (Akıl yürütme) 1200 ve DeepSeek V3.2 (Akıl yürütme) 1194 puan alıyor. Bu özellikle 27B parametre modeli için dikkat çekicidir ve boyutuna göre güçlü bir ajan yeteneği olduğunu gösterir. GDPval-AA, 44 meslek ve 9 büyük sektörde gerçek dünya görevleri üzerinde modelleri test ediyor
➤ AA-Her Şeyi Bilme, Qwen3.5 ailesinde görece zayıf bir zayıflık olarak kalıyor; bu durum esas olarak halüsinasyon oranından ziyade düşük doğruluktan kaynaklanıyor. Qwen3.5 27B, AA-Omniscience'da -42 puan alıyor, MiniMax-M2.5 (-40) ile karşılaştırılabilir ama DeepSeek V3.2 (-21) ve GLM-4.7 (-35) geride. Qwen3.5 27B'nin halüsinasyon oranı (%80) akranlarından (GLM-4.7 %90, MiniMax %89, DeepSeek %82) daha düşük olsa da, doğruluğu %21 ile daha düşük, DeepSeek V3.2 için %34 ve GLM-4.7 için %29. Bu muhtemelen model boyutunun bir sonucudur - genel olarak AA-Omniscience'da daha fazla toplam parametreye sahip modellerin doğruluk açısından daha iyi performans gösterdiğini gözlemledik; çünkü daha geniş bilgi hatırlaması daha büyük parametre sayılarından fayda sağlar
➤ Qwen3.5 27B, Qwen3.5 122B A10B ile eşdeğer zekiliktedir. 122B A10B, her ileri geçişte toplam 122B parametrelerinin sadece 10B'sini etkinleştiren Uzmanlar Karışıklığı modelidir. 27B modeli GDPval-AA'da (1205 Elo vs 1145 Elo) ve TerminalBench'te biraz liderdir (+1.5 p.p.), 122B modeli ise SciCode (+2.5 p.p.), HLE (+1.2 p.p.) ile önde ve daha düşük halüsinasyon oranına sahip (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Reasoning, 37) ~3B aktif parametrelere sahip en akıllı modeldir, GLM-4.7-Flash (30) üzerinden 7 puan öndedir. Bu ~3B aktif kategorideki diğer modeller arasında Qwen3 Coder Next (toplam 80B, 28), Qwen3 Next 80B A3B (27) ve NVIDIA Nemotron 3 Nano 30B A3B (24) bulunmaktadır
➤ Qwen3.5 27B, Alibaba Cloud API üzerinden ~$299 maliyetli Intelligence Index'i çalıştırmak için 98M çıkış tokenı kullandı. Bu, benzer zekaya sahip modellere kıyasla belirgin şekilde yüksek token kullanımıdır: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M) ve hatta daha büyük Qwen3.5 397B (86M).
Diğer bilgiler:
➤ Bağlam penceresi: 262K token (YaRN üzerinden 1M'ye genişletilebilir)
➤ Lisans: Apache 2.0
➤ API fiyatlandırması (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 her 1M giriş/çıkış tokenı başına

3,62K
Kling 3.0 1080p (Pro), Yapay Analiz Video Arena'da hem Sesli hem Sessiz liderlik tablolarında Metinden Videoya #1 sırayı aldı ve Grok Imagine, Runway Gen-4.5 ve Veo 3.1'i geride bıraktı!
Image to Video'da, Kling 3.0 1080p (Pro) With Audio liderlik tablosunda #4, No Audio'da ise #6 sırada yer alıyor; Grok Imagine ve PixVerse V5.6'nın gerisinde yer alıyor.
Kling 3.0, @Kling_ai'ın en son sürümüdür ve Kling 2.6 modellerinden büyük bir sıçramayı temsil eder. Model, 1080p (Pro) ve 720p (Standart) kalite katmanlarında geliyor ve 15 saniyelik nesilleri ve yerel ses üretimini destekliyor.
Kling ayrıca, video üretiminin ötesine geçen ve görüntü ve video girişlerini, video düzenlemesini ve video üretimini tek bir birleşik modelde destekleyen çok modlu bir model olan Kling 3.0 Omni'yi de piyasaya sürdü. Kling 3.0 Omni 1080p (Pro) ve Omni 720p (Standart) da güçlü performans sergiliyor; Omni 1080p (Pro) Metin Sesli Video'da #2, Sessiz Modda ise #4 sırada yer alıyor.
Kling 3.0, Kling AI uygulaması ve API üzerinden @fal üzerinden erişilebilir. Kling 3.0 1080p (Pro) ses olmadan ~$13/dk ve ses için ~$20/dakika fiyatında, 720p (Standart) ise sırasıyla ~$10/dakika ve ~$15/dakika fiyatlarında. Ses olmadan 1080p (Pro), Veo 3.1 ile dakikada 12 dolar ile karşılaştırılabilir, ancak Kling 2.5 Turbo ve Grok Imagine'e göre (dakikada 4,20 dolar) önemli bir avantaj.
Aşağıda, Kling 3.0 1080p (Pro) ile Yapay Analiz Video Arenamızdaki 🧵 diğer önde gelen modeller arasındaki karşılaştırmalar için bakınız

190
Inception Labs, yeni nesil üretime hazır Diffusion LLM'i Mercury 2'yi piyasaya sürdü. Mercury 2, önemli zekâ artışlarıyla >1.000 çıktı token/s elde ediyor
@_inception_ai'nin Diffüzyon LLM'leri ("dLLM'ler"), otoregressif tabanlı LLM'lerden farklı bir mimari kullanır. Diffusion LLM üretim süreci gürültüyle başlar ve birden fazla tokenı paralel değiştirebilen bir transformatör modeliyle çıktıyı yinelemeli olarak iyileştirir. Bu, çıkış token üretiminin paralelleştirilmesine olanak tanır ve birçok çıkış tokenı aynı anda üretildiği için daha yüksek çıkış hızları sağlar.
Önemli çıkarımlar:
➤ Karşılaştırılabilir boyut/fiyat sınıfı modelleri arasında, Mercury 2 zeka ile çıkış hızı açısından rekabet halindedir. Önde gelen zekaya sahip olmasa da, çıkış hızı bu sınıftaki bir sonraki en hızlı modelin 3 katından fazla (birinci taraf uç noktalarına veya birinci taraf uç noktası olmayan sağlayıcıların medianına dayalı benchmarklar)
➤ Ana güçler arasında ajanik kodlama ve terminal kullanımı ile talimat takip etme yer alır. Merkür 2, Terminal-Bench Hard'da Claude 4.5 Haiku ile benzer seviyede performans gösteriyor ve IFBench'te (Talimat Takib) %70 puan alıyor, gpt-oss-120B, GPT-5.1 Codex mini ve GPT-5 nano'yu geride bırakıyor
Inception Labs arka planı:
Bu, Inception Labs'ın ikinci yayınıdır. Kurucular daha önce Stanford, UCLA ve Cornell'den profesörlerdi ve Flash Attention, Decision Transformers ve Direct Preference Optimization (DPO) gibi yapay zeka araştırmaları ve teknolojilerine katkıda bulunmuşlardır.
Daha fazla analiz için aşağıya bakınız.

11,35K
En İyiler
Sıralama
Takip Listesi
