Topik trending
#
Bonk Eco continues to show strength amid $USELESS rally
#
Pump.fun to raise $1B token sale, traders speculating on airdrop
#
Boop.Fun leading the way with a new launchpad on Solana.

Artificial Analysis
Analisis independen model AI dan penyedia hosting - pilih model dan penyedia API terbaik untuk kasus penggunaan Anda
Alibaba telah memperluas keluarga model Qwen3.5 dengan 3 model baru - model 27B menonjol, mencetak 42 pada Indeks Kecerdasan Analisis Buatan dan mencocokkan model bobot terbuka 8-25x ukurannya
@Alibaba_Qwen telah memperluas keluarga Qwen3.5 dengan tiga model baru bersama flagship 397B yang dirilis awal bulan ini: Qwen3.5 27B (Dense, skor 42 pada Indeks Intelijen), Qwen3.5 122B A10B (MoE, 42), dan Qwen3.5 35B A3B (MoE, 37). Kedua model MoE (Mixture-of-Experts) hanya mengaktifkan sebagian kecil dari total parameter per lintasan maju (masing-masing 10B dari 122B dan ~3B dari 35B). Indeks Kecerdasan adalah metrik sintesis kami yang menggabungkan 10 evaluasi yang mencakup penalaran umum, tugas agen, pengkodean, dan penalaran ilmiah.
Semua model berlisensi Apache 2.0, secara native mendukung konteks 262K, dan kembali ke arsitektur hibrida pemikiran/non-berpikir terpadu dari Qwen3 asli, setelah Alibaba pindah ke pos pemeriksaan Instruksi dan Penalaran yang terpisah dengan pembaruan Qwen3 2507.
Hasil pembandingan utama untuk varian penalaran:
➤ Qwen3.5 27B mendapat skor 42 pada Indeks Kecerdasan dan merupakan model paling cerdas di bawah 230B. Model terdekat dengan ukuran yang sama adalah GLM-4.7-Flash (total 31B, 3B aktif) yang mendapat skor 30. Model bobot terbuka dengan kecerdasan setara 8-25x lebih besar dalam hal parameter total: MiniMax-M2.5 (230B, 42), DeepSeek V3.2 (685B, 42), dan GLM-4.7 (357B, 42). Dalam presisi FP8 dibutuhkan ~27GB untuk menyimpan bobot model, sedangkan dalam kuantisasi 4-bit Anda dapat menggunakan perangkat keras berkualitas laptop dengan RAM 16GB+
➤ Qwen3.5 27B mendapat skor 1205 pada GDPval-AA (Agentic Real-World Work Tasks), menempatkannya di samping model yang lebih besar. Untuk konteks, skor MiniMax-M2.5 1206, skor GLM-4.7 (Penalaran) 1200, dan skor DeepSeek V3.2 (Penalaran) 1194. Ini sangat penting untuk model parameter 27B dan menunjukkan kemampuan agen yang kuat untuk ukurannya. GDPval-AA menguji model pada tugas dunia nyata di 44 pekerjaan dan 9 industri utama
➤ AA-Omniscience tetap menjadi kelemahan relatif di seluruh keluarga Qwen3.5, terutama didorong oleh akurasi yang lebih rendah daripada tingkat halusinasi. Qwen3.5 27B mencetak -42 pada AA-Omniscience, sebanding dengan MiniMax-M2.5 (-40) tetapi di belakang DeepSeek V3.2 (-21) dan GLM-4.7 (-35). Meskipun tingkat halusinasi Qwen3.5 27B (80%) lebih rendah daripada rekan-rekan (GLM-4.7 90%, MiniMax 89%, DeepSeek 82%), akurasinya juga lebih rendah pada 21% vs 34% untuk DeepSeek V3.2 dan 29% untuk GLM-4.7. Ini kemungkinan merupakan konsekuensi dari ukuran model - kami umumnya mengamati bahwa model dengan lebih banyak parameter total berkinerja lebih baik pada akurasi di AA-Omniscience, karena pengetahuan yang lebih luas mengingat manfaat dari jumlah parameter yang lebih besar
➤ Qwen3.5 27B setara dengan Qwen3.5 122B A10B. 122B A10B adalah model Mixture-of-Experts yang hanya mengaktifkan 10B dari total parameter 122B per lintasan maju. Model 27B memimpin dalam GDPval-AA (1205 Elo vs 1145 Elo) dan sedikit di TerminalBench (+1,5 p.p.), sedangkan model 122B memimpin pada SciCode (+2.5 p.p.), HLE (+1.2 p.p.), dan memiliki tingkat halusinasi yang lebih rendah (Omniscience -40 vs -42)
➤ Qwen3.5 35B A3B (Reasoning, 37) adalah model paling cerdas dengan parameter aktif ~3B, 7 poin di depan GLM-4.7-Flash (30). Model lain dalam kategori aktif ~3B ini termasuk Qwen3 Coder Next (total 80B, 28), Qwen3 Next 80B A3B (27), dan NVIDIA Nemotron 3 Nano 30B A3B (24)
➤ Qwen3.5 27B menggunakan 98 juta token keluaran untuk menjalankan Indeks Intelijen, dengan biaya ~$299 melalui Alibaba Cloud API. Ini adalah penggunaan token yang sangat tinggi dibandingkan dengan model dengan kecerdasan yang sama: MiniMax-M2.5 (56M), DeepSeek V3.2 (61M), dan bahkan Qwen3.5 397B (86M) yang lebih besar.
Informasi lainnya:
➤ Jendela konteks: 262K token (dapat diperpanjang hingga 1M melalui YaRN)
➤ Lisensi: Apache 2.0
➤ Harga API (Alibaba Cloud): 397B: $0.60/$3.60, 122B: $0.40/$3.20, 27B: $0.30/$2.40, 35B A3B: $0.25/$2.00 per 1M token input/output

3,63K
Kling 3.0 1080p (Pro) menempati posisi #1 dalam Teks ke Video di papan peringkat Dengan Audio dan Tanpa Audio di Arena Video Analisis Buatan, melampaui Grok Imagine, Runway Gen-4.5, dan Veo 3.1!
Dalam Gambar ke Video, Kling 3.0 1080p (Pro) menempatkan #4 di papan peringkat Dengan Audio dan #6 di No Audio, mengikuti Grok Imagine dan PixVerse V5.6.
Kling 3.0 adalah rilis terbaru dari @Kling_ai , mewakili lompatan besar dari model Kling 2.6 mereka. Model ini hadir dalam tingkat kualitas 1080p (Pro) dan 720p (Standar), dan mendukung generasi hingga 15 detik serta generasi audio asli.
Kling juga telah merilis Kling 3.0 Omni, model multimoda yang melampaui pembuatan video untuk mendukung input gambar dan video, pengeditan video, dan pembuatan video dalam satu model terpadu. Kling 3.0 Omni 1080p (Pro) dan Omni 720p (Standard) juga berkinerja kuat, dengan Omni 1080p (Pro) menempatkan #2 dalam Text to Video Dengan Audio dan #4 dalam No Audio.
Kling 3.0 tersedia melalui aplikasi Kling AI dan melalui API di @fal. Kling 3.0 1080p (Pro) berharga ~$13/menit tanpa audio dan ~$20/menit dengan audio, sedangkan 720p (Standar) masing-masing berharga ~$10/menit dan ~$15/menit. Tanpa audio, 1080p (Pro) sebanding dengan Veo 3.1 dengan harga $12/menit, meskipun premi yang signifikan dibandingkan Kling 2.5 Turbo dan Grok Imagine dengan harga $4.20/menit.
Lihat di bawah ini untuk perbandingan antara Kling 3.0 1080p (Pro) dan model terkemuka lainnya di Arena 🧵 Video Analisis Buatan kami

197
Inception Labs telah meluncurkan Mercury 2, LLM Difusi siap produksi generasi berikutnya. Mercury 2 mencapai >1.000 token keluaran dengan keuntungan yang signifikan dalam kecerdasan
LLM Difusi @_inception_ai ("dLLM") menggunakan arsitektur yang berbeda dibandingkan dengan LLM berbasis autoregresif. Proses pembuatan LLM Difusi dimulai dengan noise dan secara berulang menyempurnakan output menggunakan model transformator yang dapat memodifikasi beberapa token secara paralel. Hal ini memungkinkan paralelisasi pembuatan token keluaran, memungkinkan kecepatan keluaran yang lebih cepat karena banyak token keluaran dihasilkan secara bersamaan.
Kesimpulan utama:
➤ Di antara model ukuran/kelas harga yang sebanding, Mercury 2 berkinerja kompetitif dalam kecepatan kecerdasan vs. output. Meskipun tidak memiliki kecerdasan terkemuka, kecepatan outputnya lebih dari 3X model tercepat berikutnya di kelas ini (tolok ukur berdasarkan titik akhir pihak pertama atau median penyedia yang melayani model di mana titik akhir pihak pertama tidak tersedia)
➤ Kekuatan utama termasuk pengkodean agen & penggunaan terminal dan instruksi berikut. Mercury 2 berkinerja pada level yang mirip dengan Claude 4.5 Haiku di Terminal-Bench Hard dan skor 70% pada IFBench (Instruction Following), mengungguli gpt-oss-120B, GPT-5.1 Codex mini, dan GPT-5 nano
Latar belakang Inception Labs:
Ini adalah rilis kedua dari Inception Labs. Para pendiri sebelumnya adalah profesor dari Stanford, UCLA, dan Cornell dan telah berkontribusi pada penelitian & teknologi AI termasuk Flash Attention, Decision Transformers, dan Direct Preference Optimization (DPO).
Lihat di bawah untuk analisis lebih lanjut.

11,35K
Teratas
Peringkat
Favorit
