Rakuten, '일본 최대 고성능 AI 모델' 발표, 설정 파일에 DeepSeek V3 아키텍처 기반으로 표시
2026-03-17 09:34
Odaily에 따르면 1M AI News 모니터링 정보에 따르면, Rakuten 그룹이 오픈소스 모델 Rakuten AI 3.0을 발표하고 이를 '일본 최대 고성능 AI 모델'이라고 칭했습니다. 이 모델은 MoE 아키텍처를 채택하여 총 매개변수는 6710억 개이며, 각 추론 시 370억 개의 매개변수가 활성화되고, 컨텍스트 창은 128K로, 일본어 시나리오에 맞게 최적화되어 여러 일본어 벤치마크 테스트에서 GPT-4o보다 우수한 성능을 보였습니다.
이 모델은 일본 경제산업성과 신에너지산업기술종합개발기구(NEDO)가 추진하는 GENIAC 프로젝트의 성과 중 하나로, 일부 컴퓨팅 파워 지원을 받았습니다. Rakuten은 기반 모델의 출처를 공개하지 않았으며, 오픈소스 커뮤니티의 성과를 기반으로 구축되었다고만 밝혔습니다.
커뮤니티는 HuggingFace 모델 파일에서 config.json에 'deepseek_v3' 및 관련 아키텍처 필드가 포함되어 있으며, 매개변수 규모와 컨텍스트 구성이 DeepSeek V3와 일치하는 것을 발견하여, 이 모델이 DeepSeek V3를 기반으로 일본어 미세 조정을 거쳤을 가능성이 있음을 보여줍니다.
