Bài báo AI của Google làm sụp đổ cổ phiếu lưu trữ 90 tỷ USD, bị cáo buộc gian lận thí nghiệm

特邀专栏作者

2026-03-30 12:00

Bài viết này có khoảng 3219 từ, đọc toàn bộ bài viết mất khoảng 5 phút

Đối với các nhà đầu tư vào cơ sở hạ tầng AI, khi một bài báo tuyên bố đạt được cải thiện hiệu suất "vài bậc độ lớn", câu hỏi đầu tiên cần đặt ra là liệu các điều kiện so sánh chuẩn có công bằng hay không.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Một bài báo của Google về công nghệ nén bộ nhớ AI TurboQuant đã gây tranh cãi trong giới học thuật do bị cáo buộc có sự so sánh không công bằng trong thí nghiệm đối chiếu, không trích dẫn đầy đủ nghiên cứu tiên phong và có thể xuyên tạc lợi thế hiệu suất. Việc quảng bá thị trường của nó còn trực tiếp dẫn đến biến động mạnh trong phân khúc chip lưu trữ toàn cầu.
Yếu tố then chốt:
1. Cáo buộc tranh cãi chính: Bài báo bị chỉ trích vì không giải thích đầy đủ mối liên hệ kỹ thuật then chốt với thuật toán RaBitQ, và trong so sánh tốc độ, đã sử dụng tập lệnh Python chạy trên CPU đơn nhân để kiểm tra RaBitQ, nhưng lại dùng GPU A100 để kiểm tra chính mình, tạo thành một phép so sánh không công bằng.
2. Phản ứng thị trường dữ dội: Sau khi blog chính thức của Google quảng bá bài báo này, thị trường lo ngại nhu cầu bộ nhớ AI sẽ giảm, dẫn đến việc vốn hóa thị trường của các cổ phiếu chip lưu trữ như Micron, SanDisk bốc hơi hơn 90 tỷ USD trong một ngày.
3. Đóng góp kỹ thuật là có thật: Xác minh độc lập từ cộng đồng cho thấy hiệu quả nén của thuật toán TurboQuant về cơ bản là đúng, đóng góp ở cấp độ toán học của nó là có thật.
4. Phân tích của tổ chức phản bác: Các nhà phân tích từ tổ chức như Morgan Stanley chỉ ra rằng công nghệ này chỉ nén một bộ đệm cụ thể (KV Cache), thuộc về cải tiến hiệu suất bình thường, và việc cải thiện hiệu quả thậm chí có thể kích thích triển khai AI quy mô lớn hơn, cuối cùng làm tăng nhu cầu bộ nhớ.
5. Rủi ro chuỗi truyền dẫn nổi bật: Sự kiện này làm nổi bật rủi ro hệ thống rằng việc đóng gói lại một bài báo học thuật hiện có thành một câu chuyện thị trường, nếu tồn tại sai lệch thí nghiệm hoặc vấn đề diễn đạt, có thể gây ra tác động lớn đến thị trường tài chính.

Tác giả gốc: TechFlow

Một bài báo nghiên cứu của Google tuyên bố 'nén bộ nhớ AI xuống còn 1/6' đã khiến vốn hóa thị trường của các cổ phiếu chip nhớ toàn cầu như Micron, SanDisk bốc hơi hơn 900 tỷ USD vào tuần trước.

Tuy nhiên, chỉ hai ngày sau khi công bố, Jianyang Gao, nghiên cứu sinh sau tiến sĩ tại ETH Zurich - đối thủ bị bài báo 'nghiền nát' - đã đăng một bức thư ngỏ dài hàng nghìn chữ, cáo buộc nhóm Google sử dụng script Python chạy trên CPU đơn nhân để kiểm tra đối thủ trong thí nghiệm, trong khi lại dùng GPU A100 để kiểm tra chính họ, và từ chối sửa chữa sau khi được thông báo về vấn đề trước khi nộp bài. Bài viết nhanh chóng đạt hơn 4 triệu lượt đọc trên Zhihu, tài khoản chính thức của Stanford NLP chia sẻ lại, gây chấn động cả giới học thuật lẫn thị trường.

Vấn đề cốt lõi của tranh cãi này không phức tạp: Liệu một bài báo hội nghị đỉnh cao về AI được Google chính thức quảng bá rộng rãi, trực tiếp gây ra đợt bán tháo hoảng loạn trên toàn cầu đối với ngành chip, có phải đã bóp méo một cách có hệ thống một nghiên cứu tiên phong đã công bố trước đó, và thông qua các thí nghiệm không công bằng được tạo ra một cách cố ý, đã xây dựng một câu chuyện về lợi thế hiệu năng sai lệch?

TurboQuant đã làm gì: 'Mỏng hóa' 'giấy nháp' của AI xuống còn một phần sáu

Khi tạo ra câu trả lời, các mô hình ngôn ngữ lớn cần vừa viết vừa xem lại nội dung đã tính toán trước đó. Các kết quả trung gian này được lưu tạm trong bộ nhớ GPU, trong ngành gọi là 'KV Cache' (bộ đệm khóa-giá trị). Đoạn hội thoại càng dài, 'tờ giấy nháp' này càng dày, mức tiêu thụ bộ nhớ GPU càng lớn và chi phí càng cao.

Thuật toán TurboQuant do nhóm nghiên cứu Google phát triển, điểm bán hàng cốt lõi là nén tờ giấy nháp này xuống còn 1/6, đồng thời tuyên bố không mất độ chính xác, tốc độ suy luận tăng tối đa gấp 8 lần. Bài báo được công bố lần đầu trên nền tảng tiền in ấn học thuật arXiv vào tháng 4/2025, được hội nghị đỉnh cao về AI ICLR 2026 chấp nhận vào tháng 1/2026, và được blog chính thức của Google đóng gói lại để quảng bá vào ngày 24/3.

Về mặt kỹ thuật, ý tưởng của TurboQuant có thể hiểu đơn giản là: đầu tiên sử dụng một phép biến đổi toán học để 'rửa' dữ liệu lộn xộn thành định dạng thống nhất, sau đó sử dụng bảng nén tối ưu được tính toán trước để nén từng cái một, cuối cùng sử dụng cơ chế sửa lỗi 1-bit để chỉnh sửa sai lệch tính toán do nén gây ra. Việc triển khai độc lập trong cộng đồng đã xác minh hiệu quả nén về cơ bản là đúng, đóng góp toán học ở cấp độ thuật toán là có thật.

Tranh cãi không nằm ở việc TurboQuant có dùng được hay không, mà ở việc Google đã làm gì để chứng minh nó 'vượt xa đối thủ cạnh tranh'.

Thư ngỏ của Jianyang Gao: Ba cáo buộc, từng cái đều trúng huyệt

10 giờ tối ngày 27/3, Jianyang Gao đã đăng một bài viết dài trên Zhihu, đồng thời gửi bình luận chính thức trên nền tảng phản biện chính thức OpenReview của ICLR. Jianyang Gao là tác giả chính của thuật toán RaBitQ, thuật toán này được công bố năm 2024 tại hội nghị đỉnh cao về cơ sở dữ liệu SIGMOD, giải quyết cùng một loại vấn đề - nén hiệu quả vector nhiều chiều.

Cáo buộc của anh ấy chia làm ba điểm, mỗi điểm đều có hồ sơ email và dòng thời gian làm bằng chứng.

Cáo buộc một: Sử dụng phương pháp cốt lõi của người khác, nhưng không đề cập trong toàn văn.

TurboQuant và RaBitQ có một bước then chốt chung trong kỹ thuật cốt lõi: trước khi nén dữ liệu, thực hiện một lần 'xoay ngẫu nhiên' đối với dữ liệu. Thao tác này có tác dụng biến dữ liệu vốn phân bố không đều thành phân bố đều có thể dự đoán được, từ đó giảm đáng kể độ khó nén. Đây là phần cốt lõi và gần giống nhất của hai thuật toán.

Chính tác giả TurboQuant trong phần trả lời phản biện cũng thừa nhận điều này, nhưng trong toàn bộ bài báo lại không bao giờ giải thích rõ ràng mối liên hệ của phương pháp này với RaBitQ. Bối cảnh quan trọng hơn là: Tác giả thứ hai của TurboQuant, Majid Daliri, vào tháng 1/2025 đã chủ động liên hệ với nhóm của Jianyang Gao, đề nghị giúp gỡ lỗi phiên bản Python mà anh ấy viết lại dựa trên mã nguồn RaBitQ. Email mô tả chi tiết các bước tái hiện và thông tin lỗi - nói cách khác, nhóm TurboQuant rất hiểu rõ chi tiết kỹ thuật của RaBitQ.

Một phản biện ẩn danh của ICLR cũng độc lập chỉ ra rằng cả hai sử dụng cùng một kỹ thuật, yêu cầu thảo luận đầy đủ. Nhưng trong phiên bản cuối cùng của bài báo, nhóm TurboQuant không chỉ không bổ sung thảo luận, mà ngược lại còn chuyển mô tả (vốn đã không đầy đủ) về RaBitQ từ phần chính văn sang phần phụ lục.

Cáo buộc hai: Không có căn cứ gọi lý thuyết của đối phương là 'tối ưu phụ'.

Bài báo TurboQuant trực tiếp dán nhãn RaBitQ là 'tối ưu phụ' (suboptimal), lý do là phân tích toán học của RaBitQ 'tương đối thô'. Nhưng Jianyang Gao chỉ ra rằng, bài báo mở rộng của RaBitQ đã chứng minh chặt chẽ rằng sai số nén của nó đạt đến giới hạn tối ưu về mặt toán học - kết luận này được công bố tại một hội nghị đỉnh cao về khoa học máy tính lý thuyết.

Tháng 5/2025, nhóm của Jianyang Gao từng giải thích chi tiết qua nhiều vòng email về tính tối ưu của lý thuyết RaBitQ. Tác giả thứ hai của TurboQuant, Daliri, xác nhận đã thông báo cho tất cả các tác giả. Nhưng bài báo cuối cùng vẫn giữ lại cách diễn đạt 'tối ưu phụ', không đưa ra bất kỳ luận cứ phản bác nào.

Cáo buộc ba: Trong so sánh thí nghiệm, 'trói tay đối thủ bằng tay trái, cầm dao bằng tay phải'.

Đây là điểm có sức sát thương lớn nhất trong toàn văn. Jianyang Gao chỉ ra rằng, bài báo TurboQuant trong thí nghiệm so sánh tốc độ đã chồng lên hai lớp điều kiện không công bằng:

Thứ nhất, RaBitQ chính thức cung cấp mã C++ đã được tối ưu hóa (mặc định hỗ trợ song song đa luồng), nhưng nhóm TurboQuant không sử dụng, mà dùng phiên bản Python do họ tự dịch để kiểm tra RaBitQ. Thứ hai, khi kiểm tra RaBitQ, họ sử dụng CPU đơn nhân và tắt đa luồng, trong khi TurboQuant sử dụng GPU NVIDIA A100.

Hiệu ứng chồng chéo của hai điều kiện này là: độc giả thấy kết luận 'RaBitQ chậm hơn TurboQuant vài bậc độ lớn', nhưng không biết rằng tiền đề của kết luận này là nhóm Google trói tay chân đối thủ trước khi thi chạy. Bài báo không tiết lộ đầy đủ sự khác biệt về điều kiện thí nghiệm này.

Phản hồi của Google: 'Xoay ngẫu nhiên là kỹ thuật phổ biến, không thể trích dẫn mỗi bài'

Theo tiết lộ của Jianyang Gao, nhóm TurboQuant trong email phản hồi vào tháng 3/2026 cho biết: 'Việc sử dụng phép xoay ngẫu nhiên và phép biến đổi Johnson-Lindenstrauss đã là kỹ thuật tiêu chuẩn trong lĩnh vực này, chúng tôi không thể trích dẫn mọi bài báo sử dụng các phương pháp này.'

Nhóm của Jianyang Gao cho rằng đây là cách nói tráo trở khái niệm: vấn đề không phải là có trích dẫn tất cả các bài báo sử dụng phép xoay ngẫu nhiên hay không, mà là RaBitQ là công trình đầu tiên kết hợp phương pháp này với nén vector trong cùng một thiết lập vấn đề và chứng minh tính tối ưu của nó, bài báo TurboQuant lẽ ra phải mô tả chính xác mối quan hệ giữa hai bên.

Tài khoản X chính thức của Stanford NLP Group đã chia sẻ lại tuyên bố của Jianyang Gao. Nhóm của Jianyang Gao đã đăng bình luận công khai trên nền tảng ICLR OpenReview, và gửi khiếu nại chính thức đến chủ tịch hội nghị ICLR và ủy ban đạo đức, sau đó sẽ công bố báo cáo kỹ thuật chi tiết trên arXiv.

Blogger kỹ thuật độc lập Dario Salvati trong phân tích đã đưa ra đánh giá tương đối trung lập: TurboQuant thực sự có đóng góp thực sự về phương pháp toán học, nhưng mối quan hệ với RaBitQ chặt chẽ hơn nhiều so với cách diễn đạt trong bài báo.

900 tỷ USD vốn hóa bốc hơi: Tranh cãi bài báo chồng lên nỗi sợ thị trường

Thời điểm xảy ra tranh cãi học thuật này cực kỳ tinh tế. Sau khi Google công bố TurboQuant qua blog chính thức vào ngày 24/3, phân khúc chip nhớ toàn cầu đã hứng chịu đợt bán tháo dữ dội. Theo CNBC và nhiều phương tiện truyền thông khác đưa tin, Micron Technology giảm liên tiếp sáu phiên giao dịch, mức giảm tích lũy vượt quá 20%; SanDisk giảm 11% trong một ngày; SK Hynix của Hàn Quốc giảm khoảng 6%, Samsung Electronics giảm gần 5%, Kioxia của Nhật Bản giảm khoảng 6%. Logic hoảng loạn của thị trường đơn giản và thô bạo: phần mềm nén có thể giảm nhu cầu bộ nhớ cho suy luận AI xuống 6 lần, triển vọng nhu cầu chip nhớ sẽ bị điều chỉnh giảm về mặt cấu trúc.

Nhà phân tích Joseph Moore của Morgan Stanley trong báo cáo nghiên cứu ngày 26/3 đã phản bác logic này, duy trì xếp hạng 'tăng nắm giữ' đối với Micron và SanDisk. Moore chỉ ra rằng, TurboQuant chỉ nén KV Cache - một loại bộ đệm cụ thể, chứ không phải tổng lượng sử dụng bộ nhớ, và định tính nó là 'cải tiến năng suất bình thường'. Nhà phân tích Andrew Rocha của Wells Fargo cũng viện dẫn nghịch lý Jevons cho rằng, sau khi hiệu quả nâng cao giảm chi phí, ngược lại có thể kích thích triển khai AI quy mô lớn hơn, cuối cùng kéo cao nhu cầu bộ nhớ.

Bài báo cũ, đóng gói mới: Rủi ro trong chuỗi truyền dẫn từ nghiên cứu AI đến câu chuyện thị trường

Theo phân tích của blogger kỹ thuật Ben Pouladian, bài báo TurboQuant đã được công bố công khai từ tháng 4/2025, không phải nghiên cứu mới. Ngày 24/3, Google thông

công nghệ