Rakuten เปิดตัว "โมเดล AI ประสิทธิภาพสูงที่ใหญ่ที่สุดในญี่ปุ่น" ไฟล์คอนฟิกแสดงว่าอิงตามสถาปัตยกรรม DeepSeek V3
Odaily รายงาน ตามการตรวจสอบของ 1M AI News Rakuten Group ได้เปิดตัวโมเดลโอเพ่นซอร์ส Rakuten AI 3.0 และเรียกมันว่า "โมเดล AI ประสิทธิภาพสูงที่ใหญ่ที่สุดในญี่ปุ่น" โมเดลนี้ใช้สถาปัตยกรรม MoE มีพารามิเตอร์ทั้งหมด 671 พันล้านตัว เปิดใช้งานพารามิเตอร์ 37 พันล้านตัวต่อการอนุมานแต่ละครั้ง มีหน้าต่างบริบท 128K ปรับให้เหมาะสมกับสถานการณ์ภาษาญี่ปุ่น และแสดงผลดีกว่า GPT-4o ในการทดสอบมาตรฐานภาษาญี่ปุ่นหลายรายการ
โมเดลนี้เป็นหนึ่งในผลลัพธ์ของโครงการ GENIAC ที่กระทรวงเศรษฐกิจ การค้า และอุตสาหกรรมของญี่ปุ่น (METI) และองค์กรพัฒนาพลังงานใหม่และเทคโนโลยีอุตสาหกรรม (NEDO) ผลักดัน และได้รับการสนับสนุนด้านพลังการคำนวณบางส่วน Rakuten ไม่ได้เปิดเผยแหล่งที่มาของโมเดลพื้นฐาน เพียงระบุว่าสร้างขึ้นจากผลงานของชุมชนโอเพ่นซอร์ส
ชุมชนค้นพบในไฟล์โมเดล HuggingFace ว่า config.json ของโมเดลมีฟิลด์ "deepseek_v3" และฟิลด์สถาปัตยกรรมที่เกี่ยวข้อง และขนาดพารามิเตอร์กับการกำหนดค่าบริบทสอดคล้องกับ DeepSeek V3 ซึ่งบ่งชี้ว่าโมเดลนี้อาจได้รับการปรับแต่งภาษาญี่ปุ่นโดยอิงจาก DeepSeek V3
