Nhóm nghiên cứu Đại học Chiết Giang đề xuất con đường mới: Dạy cách thức não người hiểu thế giới cho AI

特邀专栏作者

2026-04-05 04:31

Bài viết này có khoảng 1742 từ, đọc toàn bộ bài viết mất khoảng 3 phút

Quan điểm chủ đạo cho rằng tham số mô hình càng nhiều thì càng gần với cách suy nghĩ của con người. Tuy nhiên, một bài báo được nhóm Đại học Chiết Giang công bố trên Nature Communications vào ngày 1 tháng 4 đã đưa ra một quan điểm khác. Họ phát hiện ra rằng khi quy mô mô hình (chủ yếu là SimCLR, CLIP, DINOv2) tăng lên, khả năng nhận diện các sự vật cụ thể thực sự tiếp tục được cải thiện, nhưng khả năng hiểu các khái niệm trừu tượng không những không tăng lên mà thậm chí còn giảm xuống.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Nghiên cứu của nhóm Đại học Chiết Giang phát hiện, sự gia tăng quy mô tham số của mô hình lớn chủ yếu nâng cao khả năng nhận diện khái niệm cụ thể, nhưng lại làm suy yếu khả năng hiểu khái niệm trừu tượng. Điều này tiết lộ sự khác biệt cơ bản giữa AI và não người trong cách tổ chức khái niệm, và đề xuất một hướng đi mới là sử dụng tín hiệu não để hướng dẫn tối ưu hóa cấu trúc mô hình.
Yếu tố then chốt:
1. Nghiên cứu phát hiện, khi tham số mô hình tăng từ 22.06 triệu lên 304.37 triệu, độ chính xác của nhiệm vụ khái niệm cụ thể tăng từ 74.94% lên 85.87%, trong khi độ chính xác của nhiệm vụ khái niệm trừu tượng lại giảm từ 54.37% xuống 52.82%.
2. Não người giỏi xây dựng mối quan hệ khái niệm phân cấp để chuyển giao kiến thức, trong khi mô hình phụ thuộc nhiều hơn vào các đặc điểm bề mặt trong dữ liệu, khó hình thành phân loại trừu tượng cấp cao một cách ổn định.
3. Nhóm đề xuất sử dụng tín hiệu não của con người khi xem ảnh làm giám sát, chuyển giao cấu trúc tổ chức khái niệm của não người cho mạng nơ-ron sâu.
4. Sau khi được huấn luyện bằng tín hiệu não, hiệu suất của mô hình trong các nhiệm vụ nhận diện khái niệm trừu tượng với học ít mẫu và trong tình huống mới được cải thiện đáng kể, trung bình tăng 20.5%, thậm chí vượt qua các mô hình đối chứng có tham số lớn hơn.
5. Nghiên cứu này chuyển trọng tâm ngành từ "quy mô lớn hơn" sang "cấu trúc tối ưu hơn", nhằm mục đích làm cho cách suy nghĩ của AI gần hơn với não người, đạt được khả năng hiểu trừu tượng thực sự và chuyển giao kiến thức.

Mô hình lớn vẫn tiếp tục phát triển, quan điểm chủ đạo cho rằng càng nhiều tham số mô hình thì càng gần với cách suy nghĩ của con người. Tuy nhiên, một bài báo được công bố bởi nhóm nghiên cứu Đại học Chiết Giang trên tạp chí Nature Communications vào ngày 1 tháng 4 đã đưa ra một quan điểm khác (liên kết bài báo gốc: https://www.nature.com/articles/s41467-026-71267-5). Họ phát hiện ra rằng khi quy mô mô hình (chủ yếu là SimCLR, CLIP, DINOv2) tăng lên, khả năng nhận diện các sự vật cụ thể thực sự tiếp tục được cải thiện, nhưng khả năng hiểu các khái niệm trừu tượng không những không tăng mà thậm chí còn giảm. Khi số tham số tăng từ 22.06 triệu lên 304.37 triệu, hiệu suất nhiệm vụ khái niệm cụ thể tăng từ 74.94% lên 85.87%, trong khi nhiệm vụ khái niệm trừu tượng giảm từ 54.37% xuống 52.82%.

Sự khác biệt trong cách suy nghĩ giữa con người và mô hình

Khi xử lý khái niệm, não người sẽ hình thành một hệ thống phân loại. Thiên nga và cú mèo trông không giống nhau, nhưng con người vẫn xếp chúng vào loài chim. Tiếp tục lên trên, chim và ngựa vẫn có thể được xếp vào lớp động vật. Khi con người nhìn thấy một thứ mới, họ thường nghĩ ngay đến việc nó giống với thứ gì đã thấy trước đây, và thuộc loại nào. Con người liên tục học các khái niệm mới, sau đó tổ chức kinh nghiệm lại, sử dụng hệ thống quan hệ này để nhận diện sự vật mới và thích ứng với tình huống mới.

Mô hình cũng phân loại, nhưng cách hình thành khác nhau. Nó chủ yếu dựa vào các mẫu hình lặp đi lặp lại trong dữ liệu quy mô lớn. Đối tượng cụ thể xuất hiện càng nhiều, mô hình càng dễ dàng nhận ra nó. Đến bước phân loại ở cấp độ lớn hơn, mô hình trở nên khó khăn hơn. Nó cần nắm bắt các điểm chung giữa nhiều đối tượng, sau đó quy chúng về cùng một loại. Các mô hình hiện tại vẫn còn điểm yếu rõ ràng ở đây. Khi tham số tiếp tục tăng, hiệu suất nhiệm vụ khái niệm cụ thể sẽ được cải thiện, trong khi nhiệm vụ khái niệm trừu tượng đôi khi còn giảm.

Điểm chung giữa não người và mô hình là cả hai đều hình thành một hệ thống phân loại bên trong. Tuy nhiên, trọng tâm của hai bên khác nhau: vùng thị giác cấp cao của não người tự nhiên phân chia các loại lớn như sinh vật và phi sinh vật. Trong khi đó, mô hình có thể phân biệt các đối tượng cụ thể, nhưng rất khó để ổn định hình thành các phân loại lớn hơn như vậy. Sự khác biệt này dẫn đến việc não người dễ dàng áp dụng kinh nghiệm cũ vào đối tượng mới hơn, vì vậy khi đối mặt với những thứ chưa từng thấy, chúng ta có thể phân loại nhanh chóng. Còn mô hình thì phụ thuộc nhiều hơn vào kiến thức hiện có, vì vậy khi gặp đối tượng mới, chúng dễ dừng lại ở các đặc điểm bề ngoài. Phương pháp được đề xuất trong bài báo xoay quanh đặc điểm này, sử dụng tín hiệu não để ràng buộc cấu trúc bên trong của mô hình, giúp nó tiếp cận gần hơn cách phân loại của não người.

Giải pháp của nhóm Đại học Chiết Giang

Giải pháp mà nhóm đưa ra cũng rất độc đáo, không phải là tiếp tục tăng tham số, mà là sử dụng một lượng nhỏ tín hiệu não để giám sát. Tín hiệu não ở đây đến từ bản ghi hoạt động não của người khi xem ảnh. Bài báo gốc viết rằng: chuyển cấu trúc khái niệm của con người (human conceptual structures) cho các Mạng Nơ-ron Sâu (DNNs). Ý nghĩa là cố gắng dạy cho mô hình cách não người phân loại, tổng quát hóa và đặt các khái niệm gần nhau như thế nào.

Nhóm đã thực hiện thí nghiệm với 150 danh mục huấn luyện đã biết và 50 danh mục kiểm tra chưa từng thấy. Kết quả cho thấy, khi quá trình huấn luyện này tiến triển, khoảng cách giữa mô hình và biểu diễn não liên tục thu hẹp. Sự thay đổi này xuất hiện đồng thời ở cả hai loại danh mục, điều này cho thấy mô hình học được không phải là từng mẫu đơn lẻ, mà thực sự bắt đầu học một cách tổ chức khái niệm gần hơn với não người.

Sau quá trình huấn luyện này, khả năng học của mô hình khi có ít mẫu trở nên mạnh hơn, và hiệu suất khi đối mặt với tình huống mới cũng tốt hơn. Trong một nhiệm vụ chỉ cung cấp rất ít ví dụ nhưng yêu cầu mô hình phân biệt các khái niệm trừu tượng như sinh vật và phi sinh vật, mô hình đã cải thiện trung bình 20.5%, và vượt qua cả các mô hình đối chứng có số tham số lớn hơn nhiều. Nhóm cũng đã thực hiện thêm 31 bài kiểm tra chuyên biệt, và một số loại mô hình đều cho thấy sự cải thiện gần một phần mười.

Trong vài năm qua, con đường quen thuộc của ngành mô hình là quy mô mô hình lớn hơn. Nhóm Đại học Chiết Giang đã chọn một hướng khác, đi từ "lớn hơn là tốt hơn" (bigger is better) đến "có cấu trúc là thông minh hơn" (structured is smarter). Mở rộng quy mô thực sự hữu ích, nhưng chủ yếu cải thiện hiệu suất trong các nhiệm vụ quen thuộc. Khả năng hiểu trừu tượng và chuyển giao kiểu con người cũng cực kỳ quan trọng đối với AI, điều này đòi hỏi cấu trúc tư duy của AI trong tương lai phải gần hơn với não người. Giá trị của hướng đi này nằm ở chỗ nó kéo sự chú ý của ngành trở lại với chính cấu trúc nhận thức, thay vì chỉ đơn thuần mở rộng quy mô.

Neosoul và Tương lai

Điều này mở ra một khả năng lớn hơn: sự tiến hóa của AI chưa chắc chỉ xảy ra ở giai đoạn huấn luyện mô hình. Huấn luyện mô hình có thể quyết định cách AI tổ chức khái niệm, hình thành cấu trúc phán đoán chất lượng cao hơn. Sau khi bước vào thế giới thực, một tầng tiến hóa khác của AI mới bắt đầu: cách phán đoán của AI agent được ghi lại, kiểm chứng và không ngừng phát triển trong sự cạnh tranh lẫn nhau thực tế, tự học và tự tiến hóa như con người. Đây cũng chính là điều Neosoul đang làm hiện nay. Neosoul không chỉ để AI agent đưa ra câu trả lời, mà còn đặt AI agent vào một hệ thống liên tục dự đoán, xác minh, thanh toán và sàng lọc, cho phép nó liên tục tối ưu hóa bản thân thông qua dự đoán và kết quả, giữ lại cấu trúc tốt hơn và loại bỏ cấu trúc kém hơn. Điều mà nhóm Đại học Chiết Giang và Neosoul cùng hướng đến, thực chất là cùng một mục tiêu: khiến AI không chỉ biết giải bài tập, mà còn phải có khả năng tư duy toàn diện, không ngừng tiến hóa.

Web 4.0

Chào mừng tham gia cộng đồng chính thức của Odaily