Metya AI Lab ra mắt mô hình xã hội quy mô lớn đầu tiên, nâng cao hiệu quả mạng xã hội AI lên 116,3%.

Odaily资深作者

4giờ trước

Bài viết này có khoảng 3689 từ, đọc toàn bộ bài viết mất khoảng 6 phút

Khi những phán đoán không còn là hộp đen, các cuộc trò chuyện không còn phải xếp hàng và rào cản ngôn ngữ không còn tồn tại, những cuộc gặp gỡ thoải mái hơn sẽ diễn ra thường xuyên hơn.

Khi hệ thống không còn chờ bạn nói xong mới phản hồi, mà thay vào đó có thể nắm bắt nhịp điệu cuộc trò chuyện, lắng nghe cảm xúc và phản hồi khi bị ngắt lời, chất lượng của các cuộc gặp gỡ trực tuyến sẽ được định hình lại một cách âm thầm. Phòng thí nghiệm Trí tuệ nhân tạo Metya của Đại học Cornell đã phát hành một mô hình xã hội mới, vừa đảm bảo cuộc trò chuyện diễn ra suôn sẻ vừa quản lý việc kiểm soát cuộc trò chuyện trong cùng một cuộc trò chuyện. Phần thoại đạt được giao tiếp song công thực sự, cho phép người dùng nghe và nói đồng thời, ngắt lời tự nhiên và thậm chí tự ngắt lời. Phần nội dung cung cấp bằng chứng rõ ràng và có thể truy xuất nguồn gốc, vượt ra ngoài việc chỉ hỏi "bạn có thể" để đồng thời trình bày "tại sao" và "làm thế nào để làm tốt hơn". Sự kiện ra mắt đã tránh các cuộc thảo luận nặng về thuật ngữ chuyên ngành và sử dụng các minh họa thực tế để minh họa hệ thống. Khi bước vào phòng thảo luận đa ngôn ngữ, hệ thống cung cấp một chủ đề mở đầu nhẹ nhàng và thứ tự nói chuyện tự nhiên. Khi ai đó đăng một liên kết ngắn đáng ngờ, một thanh bên sẽ ngay lập tức hiển thị các thuật ngữ liên quan và đề xuất hành động mà không làm gián đoạn cuộc trò chuyện đang diễn ra. Nếu có sự im lặng, một "câu hỏi chuyển tiếp" đúng lúc sẽ được sử dụng để kết nối với người chưa phát biểu trong vòng trước, cùng nhau ôn lại cuộc trò chuyện.

Người đứng đầu Phòng thí nghiệm AI Metya cho biết: "Mạng xã hội không phải là việc trả lời câu hỏi, và hẹn hò thậm chí còn ít hơn thế. Chúng tôi đặt mục tiêu đảm bảo hai điều vững chắc: trò chuyện trôi chảy và đưa ra quyết định rõ ràng . Sự trôi chảy nghĩa là nhịp điệu ổn định, cho phép gián đoạn và kết nối lại suôn sẻ; sự rõ ràng nghĩa là mọi lời nhắc nhở đều có cơ sở và có thể được xem xét lại. Bằng cách tích hợp hai yếu tố này vào cùng một cuộc trò chuyện, những cuộc gặp gỡ trực tuyến thực sự có thể mang lại cảm giác ấm áp và trật tự."

1. Hội thoại song công và Phán đoán có thể diễn giải: Đưa nhịp điệu và bằng chứng trở lại cùng một cuộc hội thoại

Các cuộc trò chuyện giữa người và máy tính truyền thống dựa trên điều khiển lượt nói và ngưỡng im lặng: người dùng nói xong, hệ thống sẽ phản hồi. Tương tác "bộ đàm" này có thể trở nên gượng gạo khi có nhiều người cùng tham gia hoặc khi cảm xúc dâng trào. Mô hình vĩ mô xã hội của Metya, dựa trên tương tác song công toàn phần, cho phép hệ thống lắng nghe và nói đồng thời mà không làm gián đoạn thông điệp. Khi người kia dừng lại ở một điểm quan trọng, hệ thống có thể phản hồi bằng các câu trả lời hoặc câu hỏi phù hợp. Nếu phát hiện người kia thực sự muốn nói, hệ thống sẽ dừng lại và nhường quyền. Điều này không phải là việc ngắt lời hay tự động chèn những lời xã giao, mà là một "sự phối hợp nhịp điệu" liên tục, đồng bộ.

Trong các tình huống thoại nhiều người, hệ thống đóng vai trò "người dẫn chương trình tiết chế". Tiết chế nghĩa là hệ thống sẽ không chiếm hết sự chú ý, mà thay vào đó sử dụng thời gian ngắn, điểm danh, kết thúc cuộc trò chuyện và giải quyết những khoảng lặng khó xử để giúp mọi người nhìn thấy và được nhìn thấy với tốc độ thoải mái. Nếu khoảng lặng khó xử vượt quá ngưỡng, hệ thống sẽ đưa vào "câu hỏi tiếp nối"; nếu bài phát biểu đi chệch chủ đề, hệ thống sẽ tóm tắt cuộc thảo luận trong một câu; khi cảm xúc quá nóng, hệ thống sẽ "giảm tiếng ồn" ở mức âm lượng thấp hơn và tốc độ nói chậm hơn để khôi phục trật tự. Đồng thời, phiên dịch đa ngôn ngữ đồng thời luôn hiện diện ở chế độ nền - những người tham gia nói các ngôn ngữ khác nhau nói bằng tiếng mẹ đẻ của họ, và hệ thống sẽ căn chỉnh ngữ nghĩa theo thời gian thực, loại bỏ nhu cầu sử dụng phụ đề bổ sung và tạo cảm giác chậm trễ, nhờ đó ngôn ngữ không còn là rào cản đầu tiên.

Ngoài "sự mượt mà", còn phải có "sự rõ ràng". Metya nâng cấp quản trị nội dung từ việc phán đoán "đạt/không đạt" kiểu hộp đen lên một chuỗi bằng chứng có thể giải thích được. Khi xảy ra các biểu thức vượt quá giới hạn, liên kết rủi ro hoặc các cú nhảy ra ngoài được kích hoạt, hệ thống không đột ngột ngắt cuộc trò chuyện. Thay vào đó, nó đồng thời hiển thị câu gốc, mệnh đề bị ảnh hưởng, lý do cho phán đoán, mức độ tin cậy và hành động được đề xuất trong thanh bên. Nếu đó chỉ là một lời nói lỡ lời hoặc một câu đùa trong ngữ cảnh, trước tiên nên nhắc nhở bằng lời nói; nếu nó tái diễn, người dùng có thể bị tắt tiếng hoặc xóa. "Phương pháp từng bước" này giải thích "lý do" và "cần làm gì tiếp theo" mà không làm gián đoạn bầu không khí. Các bộ phận vận hành và đối tác có thể nhấp trực tiếp vào đoạn bằng chứng để xác minh; người dùng cũng có thể xem các hướng dẫn liên quan và gửi khiếu nại khi cần thiết. Thay vì gọi là "chuỗi hạn chế", tốt hơn nên gọi nó là "chuỗi minh bạch": tất cả các hành động đều có thể được truy xuất về cơ sở, và tất cả các cơ sở đều có thể được xem xét.

Về mặt kỹ thuật, tính ổn định bắt nguồn từ một bộ giải pháp toàn diện: một hệ thống âm thanh front-end bao gồm tách loa, triệt tiếng vọng và giảm tiếng ồn xung quanh, đảm bảo phát hiện gián đoạn chính xác và ổn định. Một "máy trạng thái nhịp điệu" điều phối các lượt nói, ngăn chặn tình trạng "nghe trong khi nói" leo thang thành tình huống "cầm micro". Các phong cách lưu trữ có thể tùy chỉnh (kiềm chế, sôi động, chuyên nghiệp) phù hợp với các loại phòng và tính cách khác nhau. Về mặt nội dung, các quy tắc cộng đồng được chia nhỏ thành một danh sách kiểm tra có thể thực thi gồm "các mục - phản ví dụ - giải thích ranh giới" để giảm nguy cơ áp đặt ngoài ý muốn. Tất cả những điều này đều hướng đến một mục tiêu duy nhất: đảm bảo hệ thống tự xử lý được sự phức tạp và duy trì sự tôn trọng đối với người dùng .

2. Tích hợp toàn bộ chuỗi với Metya: Từ việc được nhìn thấy, có thể nói, đến việc xem xét

Đây không chỉ là tính năng demo; mà là một hành trình thực tế được tích hợp sẵn trong ứng dụng hẹn hò Metya. Từ lúc gặp gỡ, đến cuộc trò chuyện đầu tiên, cho đến khi quyết định có nên gặp lại hay không, hệ thống đều cung cấp hỗ trợ phù hợp vào những thời điểm quan trọng.

Trong giai đoạn "được nhìn thấy ", hệ thống kết hợp thông tin, diễn biến gần đây và sở thích chủ đề để tạo ra một "hồ sơ tương thích", ưu tiên những người có khả năng "hòa hợp" với nhau hơn. Đối với các cặp đôi khác ngôn ngữ, tính năng phiên dịch đồng thời đa ngôn ngữ được bật theo mặc định trước khi trò chuyện để tránh bị chặn bởi ngôn ngữ ngay từ đầu. Đối với các cặp đôi dễ rơi vào khoảng lặng ngượng ngùng, thẻ ứng viên sẽ được thiết lập sẵn ba chủ đề nhẹ nhàng, chẳng hạn như "Niềm vui bất ngờ gần đây nhất", "Một bộ phim bạn sẽ xem đi xem lại" và "Đi đâu nửa ngày cuối tuần", để phần mở đầu trở nên hấp dẫn và ấm áp hơn. Điều mà nhiều người dùng nhận được ở đây không phải là "kỹ năng" được truyền đạt, mà là lòng can đảm để "lên tiếng".

Khi cuộc trò chuyện đã sẵn sàng bắt đầu, dù là trong môi trường một -một hay phòng họp, tính năng "Mở Thông Minh" sẽ ngay lập tức tạo thứ tự nói và chủ đề mở đầu. Hệ thống hoạt động như một "người dẫn chương trình", duy trì nhịp độ ổn định ở chế độ song công toàn phần. Khi ai đó muốn ngắt lời, hệ thống sẽ tự động nhường lời mà không cần nhắc nhở. Nếu cuộc trò chuyện đi chệch hướng, hệ thống sẽ nhẹ nhàng kết thúc bằng một bản tóm tắt chứa các từ khóa. Khi cần sự tham gia, "câu hỏi chuyển tiếp" sẽ được chuyển đến những người chưa phát biểu trong vòng trước, tránh việc một số người chiếm dụng micro quá lâu. Quan trọng hơn, nếu một cụm từ hoặc liên kết ngoài phạm vi được đề cập, thanh bên sẽ ngay lập tức hiển thị ngữ cảnh và các hành động được đề xuất mà không làm gián đoạn cuộc trò chuyện đang diễn ra. Người dẫn chương trình sẽ nhận được các lời nhắc ít gây phiền nhiễu (chẳng hạn như "Vui lòng nhắc lại điểm chính", "Phản hồi từ một góc nhìn khác", "Đưa ra một ví dụ cụ thể") thông qua hệ thống phản hồi trong tai. Những lời nhắc này không được phát đến tất cả mọi người, mà thay vào đó, âm thầm giúp người dẫn chương trình duy trì giọng điệu tích cực và lịch sự.

Một bài đánh giá tốt là điều kiện tiên quyết để biến cuộc trò chuyện thành một cuộc gặp gỡ tốt đẹp hơn. Gần cuối, hệ thống sẽ tự động tạo ra một bản tóm tắt cuộc trò chuyện: các vòng hiệu quả, số lượng bài phát biểu trung bình của mỗi người, độ trễ do gián đoạn, các chủ đề thảo luận chung, những câu chuyện cười và bất đồng quan điểm, nội dung nhạy cảm bị chặn (với các câu gốc và các đoạn trích dẫn), và những câu chuyện cười/đoạn trích nhạy cảm với "khuyến nghị xem xét thủ công". Bản tóm tắt mà người dùng thấy không phải là "đánh giá" mà là một "bài đánh giá" tham khảo: những điểm nào đồng tình với nhau, những ý kiến khác nhau nhưng không xung đột, và liệu có nên tiếp tục cuộc trò chuyện bằng giọng nói, chuyển đổi sang văn bản hay lên lịch hẹn gặp mặt trực tiếp. Hệ thống cung cấp hai bộ hội thoại lịch sự : một cho diễn biến tự nhiên và một cho kết luận tôn trọng. Cả nhóm vận hành và người tạo đều có thể xuất bản tóm tắt chỉ bằng một cú nhấp chuột, loại bỏ nhu cầu "nhớ lại bầu không khí" từ trí nhớ vào ngày hôm sau và cung cấp một cơ sở vững chắc cho việc xem xét.

Hai kịch bản quy trình thực tế minh họa trực quan hơn về cách sử dụng nó: Kịch bản đầu tiên là ghép nối tốc độ đa ngôn ngữ. Sự im lặng được phá vỡ trong 60 giây đầu tiên. Sang phút thứ ba, một thành viên đăng một liên kết ngắn bị nghi ngờ là gây tắc đường. Thanh bên hiển thị "Tiêu chuẩn vi phạm + Hành động được đề xuất". Người dẫn chương trình nhắc nhở người dùng bằng lời nói, nhưng tình hình lại tái diễn và leo thang mà không bị gián đoạn. Sau 20 giây tạm dừng, hệ thống đưa ra một "câu hỏi tiếp sức", hướng đến người tham gia im lặng từ vòng trước, nhanh chóng khôi phục cuộc trò chuyện. Kịch bản thứ hai là cuộc gọi 1 đấu 1 đầu tiên. Hệ thống nhắc nhở người dùng "Vui lòng nói rõ ràng" thông qua hệ thống phản hồi trong tai, giúp ngữ cảnh hóa các biểu hiện mơ hồ. Nếu người dùng vượt qua ranh giới riêng tư, giao diện sẽ đồng thời đưa ra lời nhắc "nhắc nhở ranh giới + từ chối lịch sự", làm rõ ranh giới mà không hề thô lỗ. Trước khi cuộc gọi kết thúc, cả hai bên đều nhận được tóm tắt cuộc trò chuyện và "các bước tiếp theo được đề xuất", đảm bảo người dùng luôn là người đưa ra quyết định cuối cùng.

Người đứng đầu Phòng thí nghiệm AI Metya chia sẻ về triết lý sản phẩm của mình: "Chúng tôi không theo đuổi chủ nghĩa nhân hóa cường điệu, cũng không sử dụng các hiệu ứng cầu kỳ để che giấu tính chân thực của cuộc trò chuyện. Công nghệ lùi lại một bước , loại bỏ những trở ngại như chờ đợi, hiểu lầm và rào cản ngôn ngữ, cho phép tập trung trở lại vào việc 'nói gì' thay vì 'giao tiếp với hệ thống như thế nào'."

3. Dữ liệu, ranh giới và tính cởi mở: Làm cho niềm tin có thể xác minh được và tiến độ có thể xác minh được

Lời hứa thương hiệu phải có thể xác minh được. Phòng thí nghiệm và Metya sẽ công bố bốn chỉ số cốt lõi sử dụng cùng một chỉ số, nhắm mục tiêu đến cùng một nhóm nhân khẩu học và trong cùng một khung thời gian: quản trị (tỷ lệ vi phạm, chặn nhầm/cuộc gọi nhỡ), tương tác (độ trễ phản hồi khi bị gián đoạn, số bình luận trung bình trên mỗi người dùng và độ phủ sóng giọng nói), duy trì (thời gian lưu trú tại phòng, lượt truy cập lại vào ngày hôm sau/7 ngày sau) và chuyển đổi (con đường từ duyệt đến theo dõi/mời). Mọi kết luận đều có thể được truy ngược lại từ các mẫu và bằng chứng. Báo cáo hàng quý sẽ bao gồm giải thích về phương pháp lấy mẫu và khoảng tin cậy để tránh tạo ra ảo tưởng về sự tiến bộ bằng cách thay đổi các chỉ số.

Các ranh giới cũng được viết ở phía trước. Thứ nhất, trong các tình huống cực kỳ ồn ào hoặc khi nhiều người nói cùng lúc, việc nghe nhầm hoặc ngắt câu vẫn có thể xảy ra; nhóm đã tích hợp tính năng tách giọng nói, giảm tiếng ồn và triệt tiếng vang vào kế hoạch lặp lại liên tục, đồng thời xây dựng cơ chế "phát lại cuộc trò chuyện bất thường" trên nền tảng để xử lý sự cố nhanh chóng. Thứ hai, có sự khác biệt về quy mô văn hóa của sự hài hước, châm biếm và các cụm từ theo vùng miền. Phòng thí nghiệm và các đối tác sẽ cùng nhau xây dựng "thư viện mẫu và quy tắc thang độ xám" để cố gắng làm rõ ranh giới của "những gì có thể nói/những gì không thể nói" thay vì "một khuôn mẫu phù hợp với tất cả". Thứ ba, phía doanh nghiệp có thể lựa chọn không tham gia đào tạo và lưu trữ cục bộ; tất cả các hoạt động xử lý nhạy cảm sẽ có thể theo dõi, kiểm toán và kháng cáo, và việc kiểm toán của bên thứ ba sẽ được thực hiện khi cần thiết để đảm bảo rằng việc quản trị có cả sức mạnh và ranh giới.

Để công khai tương tác với công chúng, phòng thí nghiệm sẽ dần dần cung cấp các giao diện năng lực: kiểm tra nội dung để đưa ra các vi phạm và hoàn thiện chuỗi bằng chứng; lưu trữ giọng nói với khả năng điều khiển nhịp độ song công và cấu hình phong cách; phiên dịch đồng thời để hỗ trợ các cuộc hội thoại đồng thời đa ngôn ngữ; và xuất bản ghi âm với tóm tắt phiên và đoạn trích bằng chứng (CSV/JSON). Các giao diện này được thiết kế để có thể cắm được, cho phép truy cập độc lập hoặc tích hợp sâu với nền tảng. Đối với các danh mục theo chiều dọc như giáo dục, sự kiện trực tuyến và trao đổi ngôn ngữ, phòng thí nghiệm sẽ cung cấp các mẫu dựa trên tình huống và thư viện các kỹ thuật nói chuyện lịch sự để rút ngắn thời gian từ giai đoạn chứng minh khái niệm đến khi ra mắt. Tính cởi mở không chỉ là một tuyên bố; mà là về việc chuyển đổi các năng lực thành các khối xây dựng được tiêu chuẩn hóa, cho phép tái sử dụng trơn tru và rõ ràng trong nhiều tình huống thực tế hơn.

Lộ trình R&D cũng rất rõ ràng: giai đoạn hiện tại tập trung vào việc cải thiện tính ổn định và trải nghiệm người dùng của tính năng 1v1, kết nối dựa trên sở thích và phòng họp nhiều người. Các giai đoạn tiếp theo sẽ bao gồm việc mở rộng giao diện và cấu hình kiểu máy chủ, ra mắt "thư viện kịch bản từ chối ranh giới/lịch sự" và mở rộng phạm vi hỗ trợ đa ngôn ngữ. Sau đó, các báo cáo đánh giá hàng quý sẽ được phát hành, cùng với các giải thích mẫu và cập nhật thư viện phản ví dụ, cùng với việc công bố các câu chuyện thành công điển hình và "danh sách bài học thất bại". Các sản phẩm thực tế không né tránh vấn đề; việc nêu rõ chúng thường là khởi đầu cho giải pháp.

Cuối cùng, bản phát hành này hướng đến một mục tiêu: đưa "nhịp điệu trò chuyện" và "lý lẽ xử lý" trở lại cùng một cuộc trò chuyện, và áp dụng chúng vào các tình huống hẹn hò thực tế của Metya ngay từ ngày đầu. Mỗi giây người dùng chờ đợi, mọi hiểu lầm đều được tránh khỏi, mọi lời nhắc nhở ngượng ngùng đều bớt ngượng ngùng hơn, và mối quan hệ tiến triển. Trưởng phòng AI của Metya nhấn mạnh trong bài phát biểu bế mạc: "Chúng tôi thà viết thêm một dòng lý lẽ còn hơn tạo thêm một hiểu lầm. Khi các quyết định không còn là hộp đen, các cuộc trò chuyện không còn phải xếp hàng, và rào cản ngôn ngữ được loại bỏ, những cuộc gặp gỡ thoải mái hơn sẽ trở nên phổ biến hơn."

Giới thiệu về Phòng thí nghiệm AI Metya của Đại học Cornell

Phòng thí nghiệm Trí tuệ Nhân tạo Metya (Metya AI Lab) liên kết với hệ thống nghiên cứu của Đại học Cornell và từ lâu đã tập trung vào nghiên cứu cơ bản và triển khai sản phẩm "AI + xã hội/hẹn hò", với sự đầu tư liên tục vào giọng nói song công, khả năng phán đoán nội dung có thể diễn giải, khả năng hiểu ngôn ngữ chéo và tương tác đa phương thức. Đội ngũ này ủng hộ một mô hình kỹ thuật cởi mở, hạn chế và có thể đánh giá, đồng thời cam kết sử dụng các năng lực kỹ thuật thực tiễn để phục vụ việc thiết lập và duy trì các mối quan hệ thực tế.

Chào mừng tham gia cộng đồng chính thức của Odaily

Nhóm đăng ký

https://t.me/Odaily_News

Nhóm trò chuyện

https://t.me/Odaily_CryptoPunk

Tài khoản chính thức

https://twitter.com/OdailyChina