OpenAI ออกการอัปเดตเพื่อให้สามารถให้เหตุผลแบบเรียลไทม์ทั้งเสียง ภาพ และข้อความ

2024-10-02 11:34

Odaily แพลนเน็ต เดลี่ OpenAI ได้ทำการอัปเดตโมเดลสี่ครั้งในเดือนตุลาคม เพื่อช่วยให้โมเดล AI สามารถสนทนาได้ดีขึ้น และปรับปรุงความสามารถในการจดจำรูปภาพ การอัปเดตหลักครั้งแรกคือ API แบบเรียลไทม์ ซึ่งช่วยให้นักพัฒนาสามารถสร้างแอปพลิเคชันคำพูดที่ AI สร้างขึ้นโดยใช้การแจ้งเตือนเพียงครั้งเดียว ช่วยให้สามารถสนทนาได้อย่างเป็นธรรมชาติคล้ายกับโหมดคำพูดขั้นสูงของ ChatGPT ก่อนหน้านี้นักพัฒนาจะต้อง "ต่อ" หลายโมเดลเข้าด้วยกันเพื่อสร้างประสบการณ์เหล่านี้ อินพุตเสียงมักจะต้องได้รับการอัปโหลดและประมวลผลโดยสมบูรณ์ก่อนที่จะได้รับการตอบกลับ ซึ่งหมายถึงเวลาแฝงที่สูงขึ้นสำหรับแอปพลิเคชันแบบเรียลไทม์ เช่น การสนทนาด้วยเสียงเพื่อพูดคุย ด้วยความสามารถในการสตรีมของ Realtime API ขณะนี้นักพัฒนาสามารถโต้ตอบได้ทันทีและเป็นธรรมชาติ เช่นเดียวกับผู้ช่วยเสียง API ทำงานบน GPT-4 ซึ่งเปิดตัวในเดือนพฤษภาคม 2024 และดำเนินการให้เหตุผลผ่านเสียง ภาพ และข้อความได้แบบเรียลไทม์ การอัปเดตอีกรายการประกอบด้วยเครื่องมือปรับแต่งสำหรับนักพัฒนา ซึ่งช่วยให้ปรับปรุงการตอบสนองของ AI ที่สร้างจากการป้อนรูปภาพและข้อความได้ สปินเนอร์ที่ใช้รูปภาพช่วยให้ปัญญาประดิษฐ์เข้าใจรูปภาพได้ดีขึ้น จึงช่วยเพิ่มความสามารถในการค้นหาด้วยภาพและการตรวจจับวัตถุ กระบวนการนี้รวมถึงการตอบรับจากมนุษย์ ซึ่งเป็นตัวอย่างการตอบสนองที่ดีและไม่ดีสำหรับการฝึกอบรม นอกเหนือจากการอัปเดตคำพูดและการมองเห็นแล้ว OpenAI ยังแนะนำ “การกลั่นแบบจำลอง” และ “การแคชคำใบ้” ที่ช่วยให้โมเดลขนาดเล็กเรียนรู้จากโมเดลขนาดใหญ่ และลดต้นทุนและเวลาในการพัฒนาด้วยการนำข้อความที่ประมวลผลกลับมาใช้ใหม่ ตามรอยเตอร์ OpenAI คาดว่ารายรับจะเพิ่มขึ้นเป็น 11.6 พันล้านดอลลาร์ในปีหน้า เพิ่มขึ้นจาก 3.7 พันล้านดอลลาร์ที่คาดไว้ในปี 2567 (คอยน์เทเลกราฟ)