BTC
ETH
HTX
SOL
BNB
查看行情
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

智谱发布GLM-5.1高速版API,输出速度达400 tokens/s

2026-05-22 03:19

Odaily星球日报讯 智谱面向部分企业客户推出 GLM-5.1 高速版 API,其模型输出速度达到 400 tokens/s,刷新全球大模型官方接口端到端速度纪录。

据了解,该高速版在保留原有旗舰模型能力基础上,由智谱与 TileRT 团队联合研发的高性能推理引擎驱动。该引擎通过重构 GPU 运行调度机制,将模型静态编排为常驻 GPU 的 persistent Engine Kernel,以降低传统推理中的内核启动与显存读写延迟。

在多卡场景下,TileRT 进一步将 8 卡 NVL 拓扑中的 GPU 节点特化为不同功能 Worker,以提升注意力层计算与跨卡通信效率。

目前,该高速版服务已向智谱 MaaS 平台部分企业客户开放。未来将继续优化 FP8 推理及超长上下文能力,面向 AI 编程、实时交互与实时语音等低延迟场景提供支持。