BTC
ETH
HTX
SOL
BNB
시장 동향 보기
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

智谱, GLM-5.1 고속 버전 API 출시, 출력 속도 400 tokens/s 도달

2026-05-22 03:19

Odaily星球日报讯 지푸(Zhipu)가 일부 기업 고객을 대상으로 GLM-5.1 고속 버전 API를 출시했습니다. 이 모델의 출력 속도는 400 tokens/s에 달하며, 글로벌 대형 언어 모델 공식 인터페이스의 종단간 속도 기록을 경신했습니다.

알려진 바에 따르면, 이 고속 버전은 기존 플래그십 모델의 성능을 유지하는 동시에 지푸와 TileRT 팀이 공동 개발한 고성능 추론 엔진으로 구동됩니다. 이 엔진은 GPU 실행 스케줄링 메커니즘을 재구성하여 모델을 정적으로 GPU에 상주하는 persistent Engine Kernel로 편성함으로써 기존 추론 과정에서 발생하는 커널 시작 및显存 읽기/쓰기 지연 시간을 줄입니다.

멀티 GPU 환경에서 TileRT는 8卡 NVL 토폴로지 내의 GPU 노드를 각기 다른 기능을 수행하는 Worker로 특화시켜 어텐션 레이어 계산과 카드 간 통신 효율성을 향상시킵니다.

현재 이 고속 버전 서비스는 지푸 MaaS 플랫폼의 일부 기업 고객에게 공개되었습니다. 앞으로 FP8 추론 및 초장기 컨텍스트 능력을 지속적으로 최적화하여 AI 프로그래밍, 실시간 상호작용 및 실시간 음성 등 저지연 시나리오를 지원할 예정입니다.