智譜がGLM-5.1高速版APIを発表、出力速度は400 tokens/sに到達
2026-05-22 03:19
Odaily星球日报による報道 智譜(Zhipu AI)は一部の企業顧客向けに、GLM-5.1 高速版 API をリリースしました。このモデルの出力速度は 400 tokens/s に達し、グローバルの大規模言語モデルにおける公式インターフェースのエンドツーエンド速度記録を更新しました。
関係者によると、この高速版は従来のフラッグシップモデルの性能を維持した上で、智譜とTileRTチームが共同開発した高性能推論エンジンによって駆動されています。このエンジンはGPUの実行スケジューリングメカニズムを再構築し、モデルを静的にGPUに常駐するpersistent Engine Kernelとして配置することで、従来の推論におけるカーネル起動やメモリ読み書きのレイテンシを低減します。
マルチGPU環境では、TileRTは8カードNVLトポロジ内の各GPUノードを異なる機能を持つワーカーとして特化させ、アテンション層の計算とカード間通信の効率を向上させます。
現在、この高速版サービスは智譜MaaSプラットフォームの一部の企業顧客に開放されています。今後はFP8推論や超長文脈対応能力の最適化をさらに進め、AIプログラミング、リアルタイムインタラクション、リアルタイム音声などの低レイテンシシナリオ向けにサポートを提供する予定です。
