Trillion Labs, ein koreanisches KI-Startup, hat Tri-21B-think Preview gestartet, ein kleines offenes Gewichtsmodell für Schlussfolgerungen, das 20 Punkte im Artificial Analysis Intelligence Index erzielt. Wichtige Benchmark-Ergebnisse: ➤ Hohe, aber nicht führende Intelligenz für seine kleine Größe: Tri-21B-think Preview erzielt hohe Werte für seine relativ kleine Größe von 21 Milliarden Parametern. Das Modell mit nur 21B ist im Vergleich zu führenden Open-Source-Modellen wie GLM-5 und Kimi K2.5 relativ zugänglicher für das Selbst-Hosting. ➤ Niedrige Halluzinationsrate: Tri-21B-think Preview erzielt -49 im AA-Omniscience Index, einem proprietären Benchmark für künstliche Analyse, der die Zuverlässigkeit des Wissens und Halluzinationen in verschiedenen Branchen misst. Diese gute Bewertung wird hauptsächlich durch eine relativ niedrige Halluzinationsrate (62%) angetrieben, die die niedrigste unter den südkoreanischen Modellen ist, die wir benchmarken. ➤ Stärke in der Nutzung agentischer Werkzeuge: Tri-21B-think Preview erzielt 93% im τ²-Bench Telecom und zeigt eine starke Leistung bei agentischen Werkzeugnutzungs-Workflows. Tri-21B-think Preview gehört zu den fortschrittlichen offenen Gewichtsmodellen in dieser Kategorie und erzielt ähnliche Werte wie DeepSeek V3.2 und MiniMax M2.5 in dieser Kategorie. ➤ Hohe Token-Nutzung: Tri-21B-think Preview zeigt eine sehr hohe Token-Nutzung im Vergleich zu anderen Modellen in derselben Intelligenzstufe und verwendet ~120M Schlussfolgerungs-Tokens im gesamten Artificial Analysis Intelligence-Suite. Dies ist vergleichbar mit K-EXAONE (100M Schlussfolgerungs-Tokens), einem weiteren koreanischen Modell. ➤ Keine öffentlichen Endpunkte: Tri-21B-think Preview ist ein offenes Gewichtsmodell unter der Apache 2.0-Lizenz. Derzeit ist der einzige Zugang zum Modell über Selbst-Hosting möglich. Trillion Labs hat mitgeteilt, dass ein erster, dedizierter Endpunkt in naher Zukunft bereitgestellt werden soll. Siehe unten für weitere Analysen.
Tri-21B-think Vorschau erzielt 93 % auf τ²-Bench Telecom und zeigt eine starke Leistung bei agentischen Werkzeugnutzungs-Workflows.
Die Tri-21B-think Vorschau zeigt eine sehr hohe Token-Nutzung, mit etwa 120 Millionen Reasoning-Tokens im gesamten Artificial Analysis Intelligence Suite.
8,99K