智谱發佈GLM-5.1高速版API,輸出速度達400 tokens/s
2026-05-22 03:19
Odaily星球日報訊 智譜面向部分企業客戶推出 GLM-5.1 高速版 API,其模型輸出速度達到 400 tokens/s,刷新全球大模型官方介面端到端速度紀錄。
據了解,該高速版在保留原有旗艦模型能力基礎上,由智譜與 TileRT 團隊聯合研發的高性能推理引擎驅動。該引擎透過重構 GPU 運行排程機制,將模型靜態編排為常駐 GPU 的 persistent Engine Kernel,以降低傳統推理中的核心啟動與顯存讀寫延遲。
在多卡場景下,TileRT 進一步將 8 卡 NVL 拓撲中的 GPU 節點特化為不同功能 Worker,以提升注意力層計算與跨卡通訊效率。
目前,該高速版服務已向智譜 MaaS 平台部分企業客戶開放。未來將繼續優化 FP8 推理及超長上下文能力,面向 AI 程式設計、即時互動與即時語音等低延遲場景提供支援。
