「Tôi không cần một mô hình tốt hơn nữa」: Bức tranh đa dạng về AI dưới bài đăng nóng trên Reddit

特邀专栏作者

2026-06-12 12:00

Bài viết này có khoảng 2248 từ, đọc toàn bộ bài viết mất khoảng 4 phút

Đối với một sản phẩm hàng đầu chú trọng vào sự đột phá về năng lực, "cái giá phải trả về mặt khả dụng vì an toàn" đang trở thành biến số cốt lõi quyết định việc người dùng có chi tiền hay không.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Mô hình Claude Fable 5 do Anthropic phát hành đã vượt trội đáng kể trong các bài kiểm tra chuẩn, nhưng người dùng nhìn chung cho rằng hiệu năng dư thừa, chi phí quá cao và các rào cản an toàn khiến phần lớn yêu cầu bị từ chối, làm dấy lên cuộc tranh luận sôi nổi giữa "phe đủ dùng" và "phe nhiệm vụ nặng".
Các yếu tố chính:
1. Claude Fable 5 đạt 80,3% trong bài kiểm tra chuẩn SWE-Bench Pro, dẫn trước GPT-5.5 hơn 20 điểm phần trăm, nhưng giá API (10 USD cho mỗi triệu token đầu vào) cao gấp đôi so với thế hệ trước Opus 4.8.
2. Tâm lý chủ đạo của người dùng là "mệt mỏi với mô hình", cho rằng các mô hình hàng đầu hiện tại (như Opus 4.8) đã đủ cho công việc hàng ngày, và sự cải thiện của Fable kéo theo chi phí token cao và tỷ lệ hoàn vốn đầu tư thấp.
3. Rào cản an toàn trở thành điểm yếu lớn nhất: Người dùng phản hồi rằng có tới 90% yêu cầu liên quan đến an toàn (ví dụ: đánh giá mã nguồn) bị từ chối, và bị giảm cấp xuống Opus xử lý, ảnh hưởng nghiêm trọng đến trải nghiệm khả dụng của người dùng trả phí.
4. Quan điểm đối lập cho rằng Fable thể hiện sự cải thiện "khác biệt ngày và đêm" trong các tác vụ phức tạp (như mô phỏng vật lý năng lượng cao, ngữ cảnh siêu dài), phù hợp để đóng vai trò "người lập kế hoạch và sửa chữa" hơn là mô hình hàng ngày.
5. Có bình luận đưa ra "giả thuyết đóng băng AI công khai": Các mô hình mà người dùng thông thường có thể tiếp cận có thể sẽ trì trệ, trong khi các doanh nghiệp/chính phủ sẽ sở hữu các mô hình riêng mạnh hơn (như Mythos 5 không công khai với công chúng).

Tác giả: Thứ Sáu, TechFlow Shenzhen

Anthropic vừa công bố một bảng thành tích hoàn hảo trên giấy tờ.

Claude Fable 5, được phát hành vào ngày 9 tháng 6, là mô hình cấp Mythos đầu tiên của công ty dành cho công chúng. Nó đạt 80,3% trên điểm chuẩn tác vụ kỹ thuật phần mềm thực tế SWE-Bench Pro, vượt qua người tiền nhiệm Opus 4.8 khoảng 11 điểm phần trăm và dẫn trước GPT-5.5 hơn 20 điểm phần trăm.

Nhưng phản ứng của người dùng là một gáo nước lạnh.

Ba ngày sau khi phát hành, một bài đăng nóng trên subreddit r/artificial (với 305.000 lượt truy cập hàng tuần) có tiêu đề: "Claude Fable khiến tôi nhận ra mình không cần một mô hình tốt hơn nữa." Người đăng, Axi0m-22, cho biết anh ta đã chạy Fable cho một số nghiên cứu bảo mật và công việc hàng ngày, sau đó gần như lập tức quay lại Opus để viết mã và Haiku để xử lý công việc lặt vặt. Anh ta đưa ra một phép so sánh: Giống như đang cầm iPhone 14 và xem iPhone 17 ra mắt, "bạn biết cái mới tốt hơn, nhưng bạn nghĩ: Thôi, cái này của mình cũng tốt rồi."

Phần bình chọn cao bị chiếm đóng bởi phe "đủ dùng": Mệt mỏi với mô hình trở thành cảm xúc chủ đạo

Bình luận được upvote nhiều nhất nhận được 42 lượt thích: "Ngoại trừ cửa sổ ngữ cảnh lớn hơn, tôi đã không cần một mô hình mạnh hơn kể từ Opus 4.5."

Một người dùng khác, hyprlab, nhận được 13 lượt thích: "Chuyển sang một mô hình đốt token nhiều hơn, tôi không thấy lợi ích gì cho quy trình làm việc của mình, chế độ cường độ cao của Opus 4.8 đã đủ thoải mái rồi."

Đằng sau những tuyên bố này là một bảng tính chi phí chung.

Giá API của Fable 5 là 10 đô la cho mỗi triệu token đầu vào, gần gấp đôi Opus 4.8. Người dùng siromega37 nói thẳng: "Tiêu thụ token cao hơn, nhưng không có lợi tức đầu tư. Tôi nghĩ chúng ta đang thấy một cao nguyên, bong bóng cuối cùng sẽ bị chọc thủng."

Người dùng hobopwnzor đưa ra một cách giải thích có hệ thống hơn: "Chúng ta đã ở đỉnh của đường cong hình chữ S một thời gian rồi. Những tiến bộ gần đây chủ yếu đến từ việc gọi công cụ và kỹ thuật ngoại vi, không phải khả năng của chính mô hình."

Rào cản an toàn trở thành điểm trừ lớn nhất: "90% mục đích sử dụng bị từ chối ngay lập tức"

Nếu "đủ dùng" chỉ là cảm xúc, thì phàn nàn về rào cản an toàn là một vấn đề sản phẩm cụ thể.

Theo giải thích chính thức của Anthropic, Fable 5 chia sẻ cùng một mô hình nền tảng với Mythos 5, vốn chỉ dành cho một số ít tổ chức. Sự khác biệt là Fable được trang bị một bộ phân loại an toàn: các yêu cầu liên quan đến lĩnh vực rủi ro cao như an ninh mạng sẽ bị chặn và được trả lời bởi Opus 4.8. Công ty cho biết cơ chế này được điều chỉnh khá thận trọng, trung bình kích hoạt trong ít hơn 5% số phiên và có thể từ chối nhầm các yêu cầu vô hại.

Trong bài đăng Reddit này, tỷ lệ kích hoạt được cảm nhận rõ ràng cao hơn nhiều so với 5%. Người dùng jradoff, người nhận được 17 lượt thích, cho biết anh ta yêu cầu Fable kiểm tra tính bảo mật của mã của mình, nhưng "hễ nhắc đến bất cứ thứ gì liên quan đến bảo mật, nó gần như đều từ chối xử lý" và sau đó bị chuyển về Opus. Một bình luận khác với 12 lượt thích còn thẳng thắn hơn: "90% những gì bạn muốn làm với nó sẽ bị từ chối, vô dụng."

Sự bất bình của người dùng trả phí còn nặng nề hơn. Người dùng kaitava, đăng ký gói 200 đô la, viết: "Tôi trả gấp đôi phí sử dụng, muốn nó thực hiện một cuộc kiểm tra bảo mật, nhưng kết quả là bị hạ cấp xuống Opus. Bây giờ tôi không thích gì về nó nữa, chỉ chờ OpenAI bắt kịp thôi."

Đối với một sản phẩm hàng đầu được quảng cáo về bước nhảy vọt về năng lực, "cái giá phải trả cho khả năng sử dụng vì sự an toàn" đang trở thành biến số chính quyết định liệu người dùng có chi tiền hay không.

Quan điểm đối lập: Cảm nhận của người dùng tác vụ nặng là "ngày và đêm"

Có những người phản đối bên dưới bài đăng nóng, và chân dung của phe phản đối khá rõ ràng: tác vụ càng nặng, đánh giá càng cao.

Bình luận của người dùng Phylaras nhận được 15 lượt thích: "Fable tạo ra sự khác biệt thực sự cho tôi. Đối với những tác vụ phức tạp đòi hỏi cửa sổ ngữ cảnh rất lớn, nó đã bắt được những lỗi trước đây không được phát hiện." Một người dùng tự nhận đang làm mô phỏng vật lý năng lượng cao cho biết, một mô hình mô phỏng duy nhất có thể dài tới 8.000 đến 10.000 dòng mã, với hàng trăm mô hình tương tác, "có một mô hình có thể làm việc độc lập liên tục, hiểu các chi tiết của môi trường, điều đó quả thực rất đáng mong đợi đối với tôi."

Phản bác dữ dội nhất đến từ người dùng Navetz: "Thành thật mà nói, những người đã dùng mô hình này sẽ nghĩ bài đăng như thế này là điên rồ. Đối với tôi, nó thông minh khác hẳn, tôi đã sử dụng nó không ngừng nghỉ. Tôi giải thích với bạn bè không chuyên kỹ thuật: Điều này giống như đổi từ một cầu thủ đại học sang một cầu thủ xuất phát của NBA."

Cũng có người đưa ra cách sử dụng dung hòa. Người dùng ready-eddy đề xuất sử dụng Fable như một "người lập kế hoạch và sửa chữa", chứ không phải là "người xây dựng" hàng ngày, trừ khi bạn không quan tâm đến việc đốt tiền. Một bình luận khác tóm tắt giống như một cuốn sổ tay hướng dẫn sử dụng: dùng Fable để tính bảng tính là chọn sai mô hình, dùng Haiku để chạy các tác vụ phức tạp với 16 tác nhân cũng là chọn sai mô hình, "không có mô hình xấu bẩm sinh, chỉ có mô hình được dùng sai bối cảnh."

Sau khi điểm chuẩn và cảm nhận tách rời, AI công khai liệu còn mạnh hơn nữa không?

Bình luận thú vị nhất trong cuộc tranh luận này đã chuyển hướng từ sản phẩm sang cấu trúc ngành.

Người dùng KedMcJenna đưa ra "Giả thuyết đóng băng AI công khai": các mô hình mà người bình thường có thể tiếp cận có thể sẽ mãi mãi ở quanh mức hiện tại, trong khi các doanh nghiệp và tinh hoa chính phủ sẽ tiếp tục nhận được các mô hình riêng mạnh mẽ hơn, "chúng ta biết ít nhất là có Mythos, và rất có thể còn có những mô hình mạnh hơn nữa mà chúng ta sẽ không bao giờ được nghe đến."

Bình luận này chỉ ra một thực tế: Mythos 5 thực sự không mở cửa cho công chúng và hiện chỉ được cung cấp cho các cơ quan phòng thủ mạng và doanh nghiệp cơ sở hạ tầng quan trọng thông qua chương trình Project Glasswing.

Nhìn vào điểm chuẩn và dư luận cùng nhau, kết luận không mâu thuẫn.

Điểm chuẩn đo lường giới hạn khả năng, trong khi các bình luận được upvote cao trên Reddit phản ánh trần nhu cầu hàng ngày. Khi hầu hết các tác vụ của người dùng đã được đáp ứng từ thời Opus 4.6, các mô hình mạnh hơn chỉ có thể chứng tỏ bản thân trong những kịch bản cực đoan như mô phỏng vật lý hoặc ngữ cảnh siêu dài. Các nhà sản xuất mô hình không còn đối mặt với vấn đề "có làm được hay không", mà là vấn đề "ai cần, sẵn sàng trả bao nhiêu, và có thể chịu đựng bao nhiêu ma sát an toàn."

Ba ngày sau khi phát hành, Fable 5 đã nhận được hai bảng thành tích hoàn toàn khác nhau trên bảng xếp hạng điểm chuẩn và diễn đàn công luận. Cái nào gần với sự thật hơn phụ thuộc vào tốc độ Anthropic điều chỉnh bộ phân loại an toàn và lá phiếu từ ví tiền của những người dùng nặng ký.

Chào mừng tham gia cộng đồng chính thức của Odaily