Anthropic đã tạo ra mô hình AI mạnh nhất trong lịch sử, nhưng không dám phát hành...

Odaily资深作者

2026-04-08 03:58

Bài viết này có khoảng 2631 từ, đọc toàn bộ bài viết mất khoảng 4 phút

Chỉ trong vài tuần ngắn ngủi, mô hình mới đã xác định được hàng nghìn lỗ hổng bảo mật mới chưa từng được phát hiện trước đây, thậm chí còn tự xây dựng các đường tấn công.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Anthropic cùng với nhiều gã khổng lồ công nghệ khởi động dự án "Glass Wings", nhằm mục đích phát hiện và sửa chữa sớm các lỗ hổng bảo mật trong phần mềm quan trọng toàn cầu thông qua mô hình AI mang tính cách mạng Mythos của họ, để đối phó với tác động kép của việc nâng cao năng lực AI lên bối cảnh an ninh mạng.
Yếu tố then chốt:
1. Mythos là mô hình AI đầu tiên của con người có tham số vượt quá mười nghìn tỷ, chi phí huấn luyện lên tới 10 tỷ USD, hiệu suất vượt trội đáng kể so với các mô hình hàng đầu hiện có trong các bài kiểm tra về mã hóa, lập luận và an ninh mạng.
2. Chỉ trong vài tuần, mô hình này đã tự động phát hiện hàng nghìn lỗ hổng zero-day, bao gồm một lỗ hổng nghiêm trọng tồn tại 27 năm trong OpenBSD, thể hiện khả năng tấn công và phòng thủ tự động gần như ngang bằng với các hacker hàng đầu.
3. Vì lý do an ninh, Anthropic không trực tiếp phát hành công khai Mythos, mà thông qua dự án "Glass Wings", hợp tác với các doanh nghiệp hàng đầu để thực hiện việc quét và sửa lỗ hổng có giới hạn.
4. Kế hoạch sẽ cung cấp hạn mức sử dụng mô hình trị giá 100 triệu USD và quyên góp 4 triệu USD cho các tổ chức an ninh mã nguồn mở, để hỗ trợ công việc củng cố an ninh phần mềm toàn cầu.
5. Anthropic cho rằng, mặc dù AI có thể làm giảm ngưỡng tấn công, nhưng giá trị của nó trong việc phòng thủ chủ động và xây dựng phần mềm an toàn hơn cũng rất lớn, điểm mấu chốt nằm ở sự tiến hóa đồng bộ của hệ thống phòng thủ.

Original | Odaily@OdailyChina)

Author | Azuma (@azuma_eth)

Vào ngày 8 tháng 4, Anthropic, công ty phát triển AI đứng sau Claude, đã chính thức công bố sẽ ra mắt một kế hoạch mới có tên "Project Glasswing". Kế hoạch này sẽ được triển khai cùng với nhiều công ty hàng đầu như Amazon, Apple, Broadcom, Cisco, CrowdStrike, Google, JPMorgan Chase, Linux Foundation, Microsoft, NVIDIA và Palo Alto Networks.

Anthropic cho biết, đây là một biện pháp khẩn cấp nhằm bảo vệ phần mềm quan trọng nhất toàn cầu, các bên sẽ cùng sử dụng phiên bản xem trước Mythos để phát hiện và sửa chữa các lỗ hổng tiềm ẩn trong các hệ thống mà thế giới hiện đang phụ thuộc.

Mythos là mô hình AI thế hệ tiếp theo mà Anthropic đang phát triển, đây là mô hình đầu tiên trong lịch sử nhân loại có tổng số tham số vượt quá mười nghìn tỷ (trong khi đó, các mô hình chủ lưu hiện tại trên thị trường có số tham số từ vài trăm tỷ đến một nghìn tỷ). Chi phí huấn luyện đạt mức đáng kinh ngạc 100 tỷ USD. So với mô hình mạnh nhất hiện tại của Claude là Opus 4.6, Mythos đạt điểm cao hơn đáng kể trong các bài kiểm tra về mã hóa phần mềm, lập luận học thuật và an ninh mạng.

Tin đồn về Mythos đã lan truyền trên thị trường từ tuần trước, mối lo ngại phổ biến lúc đó là - liệu Mythos với khả năng chuyên biệt về an ninh mạng có ảnh hưởng đến cục diện tấn công-phòng thủ an ninh hiện tại? Nếu bị lợi dụng cho mục đích xấu, liệu có gây ra các sự cố an ninh quy mô lớn hơn? Odaily cũng đã đưa tin về vấn đề này và từng thảo luận với chuyên gia an ninh trong ngành, người sáng lập SlowMist, Cosine, về tác động tiềm ẩn đối với an ninh tấn công-phòng thủ trong ngành công nghiệp tiền mã hóa (xem chi tiết tại Phỏng vấn Odaily với Cosine: Mô hình mới cấp hạt nhân của Anthropic bị rò rỉ, ảnh hưởng thế nào đến an ninh tấn công-phòng thủ tiền mã hóa?), nhưng lúc đó Anthropic chưa công khai thừa nhận sự tồn tại của Mythos, do đó thông tin liên quan vẫn còn hạn chế.

Vào ngày 8 tháng 4, cùng với việc công bố kế hoạch "Project Glasswing", Anthropic cũng tiết lộ thêm nhiều chi tiết về Mythos. Dựa trên các trường hợp thử nghiệm thực tế được Anthropic công bố, khả năng của Mythos không bị phóng đại, đến mức công ty này thậm chí không dám trực tiếp phát hành công khai mô hình này, để tránh bị cộng đồng hacker lợi dụng cho mục đích xấu. Thay vào đó, họ dự định thông qua kế hoạch "Project Glasswing" để cho các công ty hàng đầu dùng thử và kiểm tra, vá các lỗ hổng tiềm ẩn trước.

Mythos thể hiện sức mạnh: Vài tuần, phát hiện hàng nghìn "lỗ hổng zero-day"

Khi nói về khả năng của Mythos, Anthropic thẳng thắn cho biết, sự ra đời của mô hình này có nghĩa là một thực tế nghiêm trọng đã đến - khả năng mã hóa của mô hình AI đã đạt đến trình độ cực cao, trong việc phát hiện và khai thác lỗ hổng phần mềm, chúng gần như có thể vượt qua tất cả mọi người ngoại trừ những con người thành thạo nhất.

Theo tiết lộ từ Anthropic, chỉ trong vài tuần ngắn ngủi, Anthropic đã sử dụng Mythos để xác định hàng nghìn lỗ hổng zero-day (tức những lỗi mà ngay cả nhà phát triển phần mềm cũng chưa từng phát hiện ra trước đó), nhiều lỗ hổng trong số đó thuộc loại nguy hiểm cao, vấn đề bao phủ tất cả các hệ điều hành chủ lưu và trình duyệt chủ lưu, và ảnh hưởng đến một loạt phần mềm quan trọng khác.

Anthropic đưa ra một số trường hợp điển hình:

Mythos phát hiện một lỗ hổng tồn tại 27 năm trong OpenBSD, hệ thống này vốn nổi tiếng với tính "cực kỳ an toàn", được sử dụng rộng rãi trong các cơ sở hạ tầng quan trọng như tường lửa, và lỗ hổng này cho phép kẻ tấn công từ xa trực tiếp làm sập hệ thống;
Trong thư viện xử lý video FFmpeg được sử dụng rộng rãi trong nhiều phần mềm, Mythos tìm thấy một lỗ hổng tồn tại 16 năm, đoạn mã chứa lỗi này đã được kích hoạt bởi kiểm tra tự động hơn 5 triệu lần, nhưng không bao giờ được phát hiện;
Mythos còn có thể tự động kết nối nhiều lỗ hổng trong nhân Linux, từ quyền người dùng thông thường leo thang lên toàn quyền kiểm soát máy chủ.

Đáng lo ngại hơn, Anthropic cho biết phần lớn các lỗ hổng này được Mythos "tự phát hiện và xây dựng đường dẫn khai thác" với rất ít sự can thiệp của con người, điều này có lẽ có nghĩa là AI đã bắt đầu có khả năng tấn công-phòng thủ tự động hóa tương tự như các nhóm hacker đỉnh cao.

Trên các tiêu chuẩn đánh giá, Mythos cũng thể hiện sự tiến hóa vượt bậc so với Opus 4.6. Ví dụ, trong bài kiểm tra tái tạo lỗ hổng an ninh mạng, Mythos đạt 83.1%, trong khi Opus 4.6 đạt 66.6%; trong nhiều bài kiểm tra mã hóa và lập luận, điểm số của Mythos cũng dẫn trước đáng kể.

Có lẽ chính vì khả năng của Mythos quá mạnh mẽ, Anthropic đã không chọn cách mở mô hình trực tiếp, mà trước tiên đưa ra kế hoạch "Project Glasswing", để toàn bộ internet "củng cố" trước.

Thông qua kế hoạch này, Anthropic sẽ mở sớm phiên bản xem trước Mythos Preview cho các bên tham gia kế hoạch, để phát hiện và sửa chữa các lỗ hổng hoặc điểm yếu trong hệ thống cơ sở của họ - tập trung vào các nhiệm vụ như phát hiện lỗ hổng cục bộ, kiểm tra hộp đen chương trình nhị phân, củng cố an ninh đầu cuối và kiểm tra thâm nhập hệ thống.

Anthropic cũng cam kết sẽ cung cấp tổng cộng 100 triệu USD hạn mức sử dụng mô hình cho các bên tham gia kế hoạch, để hỗ trợ việc sử dụng trong toàn bộ giai đoạn xem trước nghiên cứu. Sau đó, phiên bản Mythos Preview sẽ được mở cho người tham gia với giá lần lượt là 25 USD / 125 USD cho mỗi triệu tokens đầu vào / đầu ra (người tham gia cũng có thể truy cập mô hình này thông qua Claude API, Amazon Bedrock, Google Cloud Vertex AI và Microsoft Foundry). Ngoài hạn mức sử dụng mô hình, Anthropic còn quyên góp 2.5 triệu USD cho Alpha-Omega và OpenSSF thông qua Linux Foundation, và quyên góp 1.5 triệu USD cho Apache Software Foundation, để giúp những người bảo trì phần mềm mã nguồn mở đối phó với môi trường an ninh không ngừng thay đổi.

Anthropic dự định mở rộng dần phạm vi tham gia của "Project Glasswing", và tiếp tục thúc đẩy trong nhiều tháng, đồng thời chia sẻ kinh nghiệm nhiều nhất có thể, để các tổ chức khác có thể áp dụng kinh nghiệm liên quan vào việc xây dựng an ninh của chính họ. Trong vòng 90 ngày, Anthropic sẽ công bố báo cáo kết quả giai đoạn, bao gồm các lỗ hổng đã được sửa chữa và các biện pháp cải thiện an ninh có thể tiết lộ.

Công nghệ chỉ không ngừng nâng cấp, nhưng cũng không cần quá lo lắng

AI đang thay đổi không thể đảo ngược thế giới mà chúng ta quen thuộc, bao gồm cả lĩnh vực an ninh mạng được đề cập trong bài viết này. Khi ngưỡng phát hiện và khai thác lỗ hổng giảm mạnh, mọi người không khỏi lo ngại, liệu AI có trở thành thanh kiếm sắc bén trong tay những kẻ có hành vi xấu, đe dọa sự cân bằng an ninh mạng hiện tại không? (PS: Đối với người dùng tiền mã hóa cần đặt tiền thật vào hệ thống ví hoặc giao thức trên chuỗi, mối lo ngại này sẽ đặc biệt mạnh mẽ.)

Đối với vấn đề này, Anthropic cho rằng "chúng ta vẫn có lý do để lạc quan", lý do mô hình AI nguy hiểm chính là vì chúng có khả năng gây hại trong tay những kẻ bất hợp pháp, nhưng đồng thời, AI cũng có giá trị không thể đong đếm trong việc phát hiện và sửa chữa các lỗi phần mềm quan trọng cũng như phát triển phần mềm mới an toàn hơn.

Có thể dự đoán rằng, trong vài năm tới, khả năng của AI vẫn sẽ tiến hóa nhanh chóng, nhưng khi các phương thức tấn công mới xuất hiện, các cơ chế phòng thủ mới cũng sẽ đồng thời xuất hiện. Nâng cấp công nghệ là không thể tránh khỏi, nhưng điều này không có nghĩa là rủi ro chắc chắn mất kiểm soát - chỉ cần hệ thống phòng thủ tiến hóa đồng bộ, thậm chí có thể sử dụng AI để xây dựng hào an ninh cường độ cao hơn.

Sự an toàn

công nghệ

Chào mừng tham gia cộng đồng chính thức của Odaily