Google DeepMind เปิดตัว Gemini Robotics-ER 1.6
Odaily รายงานว่า Google DeepMind ได้เปิดตัว Gemini Robotics-ER 1.6 ซึ่งถูกกำหนดให้เป็นโมเดลการให้เหตุผลระดับสูงสำหรับหุ่นยนต์ โดยมีการปรับปรุงอย่างมีนัยสำคัญในการให้เหตุผลเชิงพื้นที่และการทำความเข้าใจหลายมุมมอง เมื่อเทียบกับรุ่นก่อนหน้า ER 1.5 และ Gemini 3.0 Flash โมเดลนี้ได้เปิดให้ผู้พัฒนาสามารถใช้งานผ่าน Gemini API และ Google AI Studio แล้ว โดยการอัปเกรดหลักประกอบด้วยความสามารถสามประการ:
1. การปรับปรุงความแม่นยำในการชี้ (pointing): สามารถใช้สำหรับการตรวจจับวัตถุ การนับ การให้เหตุผลเกี่ยวกับความสัมพันธ์เชิงพื้นที่ (เช่น "ชี้ไปที่วัตถุทั้งหมดที่สามารถใส่ลงในแก้วสีน้ำเงินได้") และการวางแผนวิถีการเคลื่อนที่ได้อย่างแม่นยำ และยังสามารถปฏิเสธการชี้ไปที่วัตถุที่ไม่มีอยู่ในภาพได้อย่างถูกต้อง
2. การตรวจจับความสำเร็จจากหลายมุมมอง: ตอนนี้หุ่นยนต์สามารถประเมินว่างานสำเร็จหรือไม่โดยการรวมภาพจากกล้องหลายตัวเข้าด้วยกัน และยังคงความแม่นยำได้แม้ในสภาพแวดล้อมที่มีสิ่งกีดขวางหรือมีการเปลี่ยนแปลง
3. เพิ่มความสามารถในการอ่านมาตรวัด: สามารถตีความมาตรวัดอุตสาหกรรมหลากหลายประเภท เช่น มาตรวัดความดันแบบวงกลม ตัวบ่งชี้ระดับของเหลวแนวตั้ง และจอแสดงผลดิจิทัล โดยใช้การมองเห็นเชิงตัวแทน (การให้เหตุผลทางภาพ + การดำเนินการโค้ด) เพื่อให้เหตุผลแบบทีละขั้นตอน ขยายรายละเอียดในพื้นที่เฉพาะก่อน จากนั้นคำนวณสัดส่วนและช่วงห่างผ่านการชี้และการใช้โค้ด และสุดท้ายรวมกับความรู้เกี่ยวกับโลกเพื่อให้ได้ค่าที่อ่านได้
