热门话题
#
Bonk 生态迷因币展现强韧势头
#
有消息称 Pump.fun 计划 40 亿估值发币,引发市场猜测
#
Solana 新代币发射平台 Boop.Fun 风头正劲
Trillion Labs,一家韩国人工智能初创公司,推出了 Tri-21B-think Preview,这是一个小型开放权重推理模型,在人工分析智能指数上得分为 20。
关键基准要点:
➤ 尺寸虽小但智能高:Tri-21B-think Preview 在其相对较小的 210 亿参数规模上得分很高。该模型仅为 21B,相比于领先的开源模型如 GLM-5 和 Kimi K2.5,更加易于自我托管。
➤ 低幻觉率:Tri-21B-think Preview 在 AA-Omniscience 指数上得分 -49,这是一个专有的人工分析基准,衡量各行业的知识可靠性和幻觉。这个良好的得分主要是由于相对较低的幻觉率(62%),这是我们基准测试中韩国模型中最低的。
➤ 在代理工具使用方面的优势:Tri-21B-think Preview 在 τ²-Bench Telecom 上得分 93%,在代理工具使用工作流程中表现强劲。Tri-21B-think Preview 在这一类别中属于前沿开放权重模型,其得分与 DeepSeek V3.2 和 MiniMax M2.5 相似。
➤ 高令牌使用率:Tri-21B-think Preview 在同一智能层级的其他模型中表现出非常高的令牌使用率,在人工分析智能套件中使用了约 1.2 亿个推理令牌。这与另一款韩国模型 K-EXAONE(1 亿个推理令牌)相当。
➤ 无公共端点:Tri-21B-think Preview 是一个根据 Apache 2.0 许可证的开放权重模型。目前,访问该模型的唯一方式是通过自我托管。Trillion Labs 已表示,预计在不久的将来将提供一个第一方专用端点。
请参见下文以获取进一步分析。

Tri-21B-think预览在τ²-Bench Telecom上得分93%,在代理工具使用工作流程中表现出色。

Tri-21B-think 预览展示了非常高的代币使用量,在人工分析智能套件中使用了约 120M 推理代币。

9.12K
热门
排行
收藏
