Google DeepMind phát hành Gemini Robotics-ER 1.6

2026-04-14 15:36

Odaily Tin tức Google DeepMind đã phát hành Gemini Robotics-ER 1.6, được định vị là mô hình lập luận cấp cao cho robot, cho thấy sự cải thiện đáng kể về lập luận không gian và hiểu biết đa góc nhìn so với thế hệ trước ER 1.5 và Gemini 3.0 Flash. Mô hình hiện đã có sẵn cho các nhà phát triển thông qua Gemini API và Google AI Studio, với ba nâng cấp cốt lõi bao gồm:

1. Cải thiện độ chính xác chỉ điểm (pointing): Có thể được sử dụng để phát hiện vật thể chính xác, đếm, suy luận quan hệ không gian (ví dụ: "chỉ ra tất cả các vật thể có thể đặt vừa vào chiếc cốc màu xanh") và lập kế hoạch quỹ đạo chuyển động, đồng thời có thể từ chối chỉ điểm chính xác các vật thể không tồn tại trong khung hình.

2. Phát hiện thành công đa góc nhìn: Robot giờ đây có thể tổng hợp hình ảnh từ nhiều camera để đánh giá xem nhiệm vụ đã hoàn thành hay chưa, duy trì độ chính xác ngay cả trong môi trường bị che khuất hoặc động.

3. Bổ sung khả năng đọc đồng hồ đo: Có thể giải thích nhiều loại đồng hồ đo công nghiệp như đồng hồ đo áp suất hình tròn, chỉ báo mức chất lỏng dọc và màn hình hiển thị kỹ thuật số. Thông qua thị giác tác nhân (lập luận thị giác + thực thi mã), nó thực hiện lập luận từng bước: đầu tiên phóng to chi tiết khu vực, sau đó tính toán tỷ lệ và khoảng cách thông qua chỉ điểm và mã, cuối cùng kết hợp kiến thức thế giới để đưa ra kết quả đọc.