Khả năng tính toán đang tập trung trở lại: Sau khi DeepSeek giảm giá, ai sẽ kiểm soát cơ sở hạ tầng AI?

Gonka_ai

特邀专栏作者

@gonka_ai

2026-04-29 08:50

Bài viết này có khoảng 3504 từ, đọc toàn bộ bài viết mất khoảng 6 phút

Bắt đầu từ bài phát biểu của Gonka tại LA Hacks 2026.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Việc các mô hình như DeepSeek giảm giá mạnh thúc đẩy dân chủ hóa ứng dụng AI, nhưng ngược lại lại đẩy nhanh việc tập trung sức mạnh tính toán vào tay một số ít ông lớn đám mây (dự kiến chi tiêu vốn của bốn nhà cung cấp dịch vụ đám mây lớn nhất vào năm 2026 đạt 570,8 tỷ USD). Mạng lưới tính toán phi tập trung Gonka cố gắng tích hợp GPU nhàn rỗi toàn cầu thông qua cơ chế khuyến khích PoW, cung cấp một giải pháp thay thế có cấu trúc trước khi quá trình tập trung hóa tầng tính toán hoàn tất.
Các yếu tố chính:
1. Việc giảm giá mô hình phụ thuộc vào nguồn lực tính toán dồi dào, nhưng nguồn lực tính toán toàn cầu đang hội tụ về một số ít nút. Công ty đầu tàu truyền thông quang học Lumentum đã gần như bán hết công suất sản xuất đến năm 2028.
2. Sức mạnh tính toán của mạng lưới Bitcoin đã vượt quá tổng sức mạnh của các trung tâm dữ liệu đám mây của Google, Microsoft, Amazon, nhưng chỉ được sử dụng cho các câu đố băm. Một lượng lớn GPU nhàn rỗi không thể được sử dụng cho suy luận AI do thiếu cơ chế điều phối.
3. Gonka tái định hướng bằng chứng công việc từ tính toán băm sang suy luận AI, khiến gần 100% đóng góp sức mạnh tính toán trong mạng tương ứng với các tác vụ thực tế, giá trị token được neo vào chi phí tính toán vật lý.
4. Năm 2026, dự kiến suy luận AI sẽ chiếm hai phần ba tổng tiêu thụ năng lực tính toán toàn cầu. Việc giảm giá khiến số lượng cuộc gọi tăng theo cấp số nhân, từ đó củng cố sự khóa chặt có cấu trúc của những người chơi nắm giữ sức mạnh tính toán lớn.
5. Mạng chính Gonka ra mắt chưa đầy một năm, sức mạnh tính toán tổng hợp đã mở rộng từ 60 tấm H100 lên hơn 10.000 tấm H100 tương đương, được thúc đẩy bởi sự kết nối tự phát của hàng trăm nút độc lập trên toàn cầu.

Ngày 26 tháng 4, DeepSeek công bố mức giá mới cho API dòng V4: toàn bộ chi phí khi cache đầu vào được truy cập giảm xuống còn một phần mười so với giá ra mắt, và với ưu đãi có thời hạn cho phiên bản Pro, chi phí xử lý hàng triệu Token chỉ còn 0,025 NDT – rẻ hơn gần một trăm lần so với một năm trước. Cổ phiếu ngành tính toán của thị trường chứng khoán Trung Quốc (cổ phiếu A) đồng loạt tăng kịch trần vào ngày hôm đó, khiến tâm lý thị trường sôi sục.

Nhưng đằng sau những tiếng hoan hô, có một vấn đề mà không ai thảo luận một cách thẳng thắn: khi các mô hình ngày càng rẻ hơn, sức mạnh tính toán cần thiết để vận hành chúng đang ngày càng tập trung hơn.

Dữ liệu không biết nói dối. Trong quý 4 năm 2025, tổng chi tiêu vốn (capex) của bốn gã khổng lồ điện toán đám mây là Microsoft, Amazon, Meta và Google đã tăng 64% so với cùng kỳ năm trước, lên 118,6 tỷ USD; dự kiến tổng chi tiêu vốn cho cả năm 2026 sẽ tiếp tục tăng 53% so với năm trước, đạt 570,8 tỷ USD. Trong cùng kỳ, Google đã nâng mục tiêu xuất xưởng chip TPU năm 2026 lên 50%, đạt 6 triệu đơn vị. Thời gian giao hàng cho dòng H100 của Nvidia, tại một số thị trường, đã kéo dài đến vài tháng.

Quyền định giá đang nghiêng về phía các nhà phát triển, nhưng quyền kiểm soát sức mạnh tính toán đang tập trung vào tay một số ít gã khổng lồ với tốc độ nhanh hơn nhiều. Đây là một mâu thuẫn sâu sắc nhưng ẩn giấu của kỷ nguyên AI.

Trong bối cảnh đó, vào ngày 24 tháng 4 năm 2026, các đồng sáng lập của giao thức Gonka, Daniil và David Liberman, đã bước lên sân khấu chính của LA Hacks 2026. Sự kiện hackathon dành cho sinh viên đại học lớn nhất thường niên của UCLA năm nay có anh em nhà Liberman làm diễn giả chính, đối diện với hàng trăm kỹ sư hàng đầu sắp bước vào ngành này. Câu hỏi mà ông đặt ra, vào thời điểm này, trở nên đặc biệt rõ ràng: Liệu sức mạnh tính toán phi tập trung có còn kịp không?

1. Mặt trái của làn sóng giảm giá

Logic giảm giá của DeepSeek V4, bề ngoài, là hiệu quả từ tiến bộ công nghệ – cơ chế chú ý (attention) mới nén các chiều Token, kết hợp với DSA (Sparse Attention) giúp giảm đáng kể nhu cầu về tính toán và bộ nhớ. Nhưng để việc giảm giá có thể tiếp diễn, nó phụ thuộc vào tiền đề rằng sức mạnh tính toán ở đâu đó phải đủ dồi dào và đủ rẻ.

Thực tế là, nguồn cung sức mạnh tính toán “đủ dồi dào” này, trên phạm vi toàn cầu, đang nhanh chóng hội tụ về một số ít nút. Michael Hurlston, CEO của Lumentum, công ty hàng đầu về truyền thông quang học, mới đây cho biết với xu hướng hiện tại, gần như toàn bộ công suất của công ty đến năm 2028 đã được bán hết. Đây không phải là vấn đề của riêng một công ty nào, mà là sự căng thẳng chung của toàn bộ chuỗi cung ứng hạ tầng AI trước nhu cầu mở rộng tốc độ cao.

Trong bài phát biểu tại LA Hacks, Daniil đã sử dụng một phép so sánh đơn giản nhưng mạnh mẽ: sức mạnh tính toán của mạng lưới Bitcoin đã vượt quá tổng sức mạnh tính toán của ba trung tâm dữ liệu đám mây Google, Microsoft và Amazon cộng lại – nhưng sức mạnh này đang làm gì? Nó đang giải một câu đố băm (hash puzzle) mà không ai cần lời giải. Sức mạnh tính toán GPU nhàn rỗi trên toàn cầu cũng tương tự: card đồ họa trong máy tính của game thủ, máy chủ trong phòng máy của trường đại học, công suất dư thừa của các nhà cung cấp dịch vụ đám mây nhỏ và vừa – tổng cộng lại có quy mô rất lớn, nhưng không thể được sử dụng cho suy luận AI do thiếu cơ chế điều phối.

Điều Gonka đang cố gắng giải quyết, chính là vấn đề điều phối này – sử dụng cơ chế khuyến khích bằng chứng công việc (Proof of Work) để tổ chức các GPU nhàn rỗi rải rác trên toàn cầu thành một mạng lưới có thể đảm nhận các nhiệm vụ suy luận AI thực tế.

2. Suy luận là mặt trận mới

Việc DeepSeek giảm giá đã làm dấy lên các cuộc thảo luận rộng rãi về “bình đẳng AI” trên Internet Trung Quốc. Nhưng có một chi tiết bị bỏ qua: mức giảm là “giá gọi” (call price), không phải “chi phí sức mạnh tính toán”. Khi các ứng dụng AI mở rộng quy mô, sự tăng trưởng về khối lượng suy luận là theo cấp số nhân – theo dự báo của ngành, đến năm 2026, suy luận sẽ chiếm khoảng hai phần ba tổng mức tiêu thụ sức mạnh tính toán AI toàn cầu.

Điều này có nghĩa là gì? Mỗi khi giá gọi giảm một bậc độ lớn, tổng lượng sức mạnh tính toán thực tế cần thiết sẽ chỉ tăng lên chứ không giảm đi. “Dân chủ hóa” các mô hình lớn, ở một mức độ nào đó, đã đẩy nhanh quá trình tập trung hóa lớp sức mạnh tính toán – bởi vì chỉ những người chơi có sức mạnh tính toán quy mô lớn mới có thể duy trì hoạt động của các dịch vụ suy luận với biên lợi nhuận cực thấp.

Đây là một sự khóa chặt mang tính cấu trúc đang hình thành: ai kiểm soát sức mạnh tính toán vật lý ở phía suy luận, người đó kiểm soát cửa ngõ hạ tầng thực sự của kỷ nguyên AI. Từ góc nhìn này, ý nghĩa của các mạng lưới tính toán phi tập trung không chỉ đơn thuần là tối ưu hóa chi phí “rẻ hơn 50%”, mà là cung cấp một con đường thay thế mang tính cấu trúc trước khi quá trình tập trung hóa hoàn tất.

3. Câu hỏi thực sự dành cho những người xây dựng trẻ

Những người tham gia LA Hacks – các kỹ sư và chuyên gia sản phẩm từ các trường đại học hàng đầu California – sẽ sớm phải đối mặt với một lựa chọn kỹ thuật không mấy lãng mạn: xây dựng sản phẩm của mình trên lớp sức mạnh tính toán nào.

Sản phẩm AI của bạn, máy chủ của ai được gọi để thực hiện suy luận?

Khi nền tảng đó điều chỉnh chiến lược định giá hoặc chính sách truy cập, bạn có khả năng di chuyển không?

Quy mô người dùng mà bạn giúp xây dựng, nó đang tạo ra giá trị cho chính bạn, hay đang cung cấp đòn bẩy cho nền tảng?

Những câu hỏi này đã từng được các nhà phát triển trải nghiệm trong thời đại Web2: khi vận mệnh của một ứng dụng bị ràng buộc sâu sắc với thuật toán hoặc quy tắc phân phối của nền tảng, “độc lập” trở thành một từ cần được định nghĩa lại liên tục. Sự phụ thuộc vào sức mạnh tính toán trong kỷ nguyên AI sẽ tái tạo cùng một logic ở lớp hạ tầng, và vì chi phí chuyển đổi cao hơn, hiệu ứng khóa chặt sẽ chỉ càng mạnh mẽ hơn.

Hackathon, như một hình thức, có sự mỉa mai nội tại của nó: trong 36 giờ, sử dụng nguồn lực tối thiểu và tốc độ nhanh nhất để xây dựng một thứ có thể chạy được – đây chính xác là trạng thái mà các cơ chế khuyến khích của mạng phi tập trung theo đuổi. Daniil đứng trên sân khấu LA Hacks, không chỉ để nói về Gonka, mà giống như đang hỏi nhóm người này: Những điều các bạn sẽ làm trong tương lai, đang giúp đẩy nhanh xu hướng tập trung hóa này, hay đang tạo ra những khả năng mới?

4. PoW 2.0: Một bài toán kỹ thuật

Gonka đã định hướng lại cấu trúc khuyến khích của bằng chứng công việc từ tính toán băm (hash) sang suy luận AI, khiến gần 100% đóng góp sức mạnh tính toán trong mạng lưới tương ứng trực tiếp với các nhiệm vụ thực tế. Cơ chế này có một yêu cầu kỹ thuật then chốt: các nhiệm vụ suy luận AI phải có thể kiểm chứng và tái tạo được – với cùng trọng số mô hình, cùng hạt giống ngẫu nhiên (random seed) và đầu vào, bất kỳ nút nào cũng có thể tái tạo kết quả tính toán và xác thực tính hợp lệ của nó. Đây là khó khăn kỹ thuật cốt lõi để Gonka đi từ nguyên mẫu học thuật đến một mạng lưới có thể vận hành.

Từ góc độ kinh tế học, ý nghĩa của cơ chế này nằm ở chỗ: giá trị token được neo đậu một cách tự nhiên vào chi phí sức mạnh tính toán vật lý, chứ không phải là tâm lý đầu cơ. Thợ đào đóng góp sức mạnh tính toán nhận được phần thưởng, nhà phát triển gọi sức mạnh tính toán trả phí, toàn bộ vòng lặp khuyến khích của hệ thống không phụ thuộc vào thiện chí của bất kỳ trung gian nào để duy trì.

Tất nhiên, tính khả thi về mặt kỹ thuật chỉ là một phần. Câu hỏi khó hơn là: trong thời đại nhu cầu sức mạnh tính toán tăng vọt và chi tiêu vốn của các ông lớn tính bằng hàng chục tỷ đô la, liệu một mạng lưới tính toán phân tán được tổ chức dựa trên sự đóng góp tự phát của cộng đồng có thể cạnh tranh thực sự về quy mô hay không?

Dữ liệu ban đầu của Gonka cung cấp một điểm tham chiếu: chưa đầy một năm sau khi mainnet ra mắt, sức mạnh tính toán tổng hợp của mạng lưới đã mở rộng từ mức tương đương 60 thẻ H100 lên hơn 10.000 thẻ, tốc độ này đến từ sự kết nối tự phát của hàng trăm nút độc lập trên toàn cầu, chứ không phải từ sự điều phối tập trung. Điều này không chứng minh rằng vấn đề quy mô đã được giải quyết, nhưng nó cho thấy cơ chế khuyến khích đã thúc đẩy tăng trưởng giai đoạn đầu một cách hiệu quả.

5. Vấn đề về thời điểm (cửa sổ cơ hội)

Trong lịch sử, quyền kiểm soát hạ tầng thường nhanh chóng tập trung lại ở giai đoạn đầu – thời đại đường sắt cũng vậy, thời đại Internet cũng vậy, và thời đại Internet di động cũng thế. Mỗi lần, đều có những người tìm được chỗ đứng trước khi các tiêu chuẩn được cố định hóa, và cũng có những người chỉ nhận ra quyền tham gia đã bị thu hẹp đáng kể sau khi quá trình tập trung hóa hoàn tất.

Hạ tầng sức mạnh tính toán AI hiện đang ở giai đoạn nào? Từ chi tiêu vốn dự kiến 570,8 tỷ USD của bốn gã khổng lồ đám mây vào năm 2026, có thể thấy tập trung hóa đang tăng tốc; nhưng từ mô hình sử dụng thực tế của các nhà phát triển, phía cung vẫn còn tồn tại một lượng lớn tài nguyên chưa được tích hợp hiệu quả. Khoảng trống này chính là không gian cấu trúc mà các mạng lưới phi tập trung có thể tồn tại.

Trong bài phát biểu của mình, Daniil đã trích dẫn một sự so sánh: sau khi bong bóng Internet năm 2000 vỡ, thứ còn lại không phải là đống đổ nát, mà là mạng lưới cáp quang trải khắp toàn cầu, hỗ trợ hoạt động của nền kinh tế kỹ thuật số trong hai thập kỷ tiếp theo. Sau khi làn sóng đầu tư bùng nổ vào hạ tầng AI lắng xuống, các giao thức tính toán và cơ chế khuyến khích được kết tinh lại sẽ trở thành hạ tầng của chu kỳ tiếp theo – vấn đề chỉ là, giao thức nào có logic nền tảng đủ vững chắc để tiếp tục hoạt động

nhà phát triển

đầu tư

Chào mừng tham gia cộng đồng chính thức của Odaily