Trillion Labs,一家韩国人工智能初创公司,推出了 Tri-21B-think Preview,这是一个小型开放权重推理模型,在人工分析智能指数上得分为 20。 关键基准要点: ➤ 尺寸虽小但智能高:Tri-21B-think Preview 在其相对较小的 210 亿参数规模上得分很高。该模型仅为 21B,相比于领先的开源模型如 GLM-5 和 Kimi K2.5,更加易于自我托管。 ➤ 低幻觉率:Tri-21B-think Preview 在 AA-Omniscience 指数上得分 -49,这是一个专有的人工分析基准,衡量各行业的知识可靠性和幻觉。这个良好的得分主要是由于相对较低的幻觉率(62%),这是我们基准测试中韩国模型中最低的。 ➤ 在代理工具使用方面的优势:Tri-21B-think Preview 在 τ²-Bench Telecom 上得分 93%,在代理工具使用工作流程中表现强劲。Tri-21B-think Preview 在这一类别中属于前沿开放权重模型,其得分与 DeepSeek V3.2 和 MiniMax M2.5 相似。 ➤ 高令牌使用率:Tri-21B-think Preview 在同一智能层级的其他模型中表现出非常高的令牌使用率,在人工分析智能套件中使用了约 1.2 亿个推理令牌。这与另一款韩国模型 K-EXAONE(1 亿个推理令牌)相当。 ➤ 无公共端点:Tri-21B-think Preview 是一个根据 Apache 2.0 许可证的开放权重模型。目前,访问该模型的唯一方式是通过自我托管。Trillion Labs 已表示,预计在不久的将来将提供一个第一方专用端点。 请参见下文以获取进一步分析。
Tri-21B-think预览在τ²-Bench Telecom上得分93%,在代理工具使用工作流程中表现出色。
Tri-21B-think 预览展示了非常高的代币使用量,在人工分析智能套件中使用了约 120M 推理代币。
9.12K