AI càng rẻ, chip càng đắt
- Quan điểm cốt lõi: Chi phí suy luận của các mô hình AI liên tục giảm mạnh (giảm khoảng 1000 lần trong ba năm) không dẫn đến giảm nhu cầu về sức mạnh tính toán, ngược lại, do sự bùng nổ của các kịch bản ứng dụng và mức độ sử dụng sâu, lượng token tiêu thụ tăng theo cấp số nhân (tăng gấp đôi mỗi hai tháng), tổng chi tiêu lại tăng vọt, cuối cùng làm trầm trọng thêm sự căng thẳng cung-cầu và tăng giá của các cơ sở hạ tầng vật lý như sức mạnh tính toán và lưu trữ.
- Các yếu tố chính:
- Giá của Claude Sonnet 5 chỉ bằng 40%-60% so với flagship Opus 4.8, nhưng hiệu suất đạt hơn 90%, thể hiện sự cải thiện liên tục về hiệu quả chi phí của các mô hình AI.
- Sau khi giảm giá mô hình, tổng chi tiêu AI của doanh nghiệp lại tăng trưởng ngược: Chi tiêu toàn cầu của doanh nghiệp cho AI tạo sinh năm 2024 là 11,5 tỷ USD, năm 2025 tăng vọt lên 37 tỷ USD, tăng 320% so với cùng kỳ.
- Nhu cầu về sức mạnh tính toán lan truyền đến thị trường phần cứng, giá spot của DRAM và NAND Flash đã tăng tích lũy hơn 300% kể từ quý 3 năm 2025, giá chip nhớ tăng gấp sáu lần trong một năm.
- Goldman Sachs dự đoán tổng chi tiêu vốn tích lũy cho cơ sở hạ tầng AI toàn cầu trong giai đoạn 2026-2031 là khoảng 7,6 nghìn tỷ USD, với một GPU cơ bản được tính là 80.500 USD, NVIDIA chiếm 75% tổng chi tiêu cho sức mạnh tính toán.
- Sự kết hợp của ba yếu tố: mở rộng ứng dụng, mức độ sâu của từng ứng dụng tăng lên và độ phức tạp của mô hình nâng cấp, đã đẩy lượng token tiêu thụ từ trung bình hàng trăm lần tương tác mỗi ngày vào năm 2023 lên hàng chục nghìn lần vào năm 2025, mỗi lần tương tác kích hoạt nhiều lần suy luận tiếp theo.
- Nghịch lý Jevons tái diễn trong lĩnh vực AI: Watt cải tiến động cơ hơi nước làm giảm tiêu thụ than nhưng lại làm tăng tổng lượng than tiêu thụ; việc cải thiện hiệu quả suy luận của AI cũng kích thích nhiều nhu cầu về sức mạnh tính toán hơn.
Nguồn bài viết: Wall Street CN
Ngày 30 tháng 6, Anthropic đã phát hành Claude Sonnet 5.
Đây là một mô hình tầm trung, nhưng là mô hình "năng suất nhất" trong dòng Sonnet. Trong bài kiểm tra năng lực tác nhân SWE-bench Pro, nó đạt 63,2 điểm – chỉ kém 6 điểm so với flagship Opus 4.8 (69,2 điểm). Ở một khía cạnh khác, trên bài kiểm tra suy luận trình độ sau đại học GPQA-AAA v2, Sonnet 5 lại vượt trội hơn Opus 4.8.
Quan trọng hơn là mức giá. Trong thời gian ưu đãi, mỗi triệu token đầu vào có giá 2 USD, đầu ra 10 USD. Mức giá tương ứng của Opus 4.8 là 5 USD và 25 USD – Sonnet 5 chỉ với 40% đến 60% chi phí, đã đạt được hơn 90% năng lực của flagship.
Tin tức này có thể được hiểu theo hai cách.
Cách thứ nhất: AI lại trở nên rẻ hơn. Chi phí giảm có lợi cho tất cả mọi người, cuộc chiến Chatbot vẫn tiếp diễn, các nhà sản xuất mô hình cạnh tranh khốc liệt.
Cách thứ hai – và cũng là điều thị trường đang định giá – mô hình càng rẻ, sức mạnh tính toán và lưu trữ càng đắt.
Vào ngày Claude Sonnet 5 được phát hành, chỉ số bán dẫn của Mỹ đã tăng gần 4%. Trong câu chuyện AI ba năm qua, có một luận điểm rõ ràng: hiệu quả suy luận sẽ triệt tiêu nhu cầu về chip. Nhưng nhận định này đã sai ở mọi điểm dữ liệu.
Giảm giá: Giảm gấp nghìn lần trong ba năm
Trước hết hãy nhìn vào xu hướng giảm giá.
Năm 2022, chi phí gọi API cấp GPT-4 là khoảng 0,03 USD mỗi nghìn token. Đến năm 2025, giá của các mô hình có hiệu suất tương đương – theo số liệu của Báo cáo Chỉ số AI Stanford – đã giảm khoảng 280 lần. Cộng với hiệu ứng tổng hợp từ mã nguồn mở và cải thiện hiệu quả, mức giảm được ngành công nhận là 1000 lần.
Không chỉ một loại mô hình giảm giá, mà tất cả đều giảm.
Lần này, Sonnet 5 của Anthropic đối đầu với mật độ năng lực của Opus 4.8, nhưng giá chỉ bằng 40% đến 60%. Gemini Omni Flash của Google tạo video với giá 0,10 USD mỗi giây, mô hình hình ảnh Nano Banana 2 Lite tạo ảnh trong 4 giây, mỗi nghìn tấm chỉ 0,034 USD – bằng một nửa thế hệ trước. DeepSeek-V4-Pro đã đưa chi phí một triệu token đầu vào xuống mức 0,035 USD.
Việc giảm giá không chỉ xảy ra trên bảng giá.
Ngày 24 tháng 6, The Information đưa tin OpenAI đã tìm ra một kỹ thuật tối ưu phần mềm thuần túy nội bộ – nhu cầu GPU cho một bước tính toán nào đó đã bị cắt giảm hơn một nửa, nhóm GPU chuyên dụng giảm từ vài nghìn xuống còn vài trăm. Cùng tháng, Meta đề xuất giải pháp Vistara: kết nối lại bộ nhớ DDR4 từ các máy chủ đã ngừng hoạt động thông qua chip CXL tự phát triển, kết hợp với DDR5 theo tỷ lệ 3:1, giúp giảm 25% chi phí máy chủ suy luận.
Đến ngày 30 tháng 6, Stepfun đã mã nguồn mở kỹ thuật giải mã suy đoán JetSpec – tốc độ suy luận của mô hình lớn có thể tăng gần 10 lần. Tính ra, với cùng một lượng token đầu ra, số lượng GPU cần thiết có thể giảm mạnh một bậc.
Nếu AI là một hàm chi phí - nhu cầu truyền thống, những tín hiệu này sẽ chỉ ra một điều: nhu cầu về chip trong tương lai sẽ giảm.
Phố Wall đã lo sợ như vậy.
Vào cuối tuần DeepSeek phát hành R1 vào tháng 1, cổ phiếu cơ sở hạ tầng AI đã trải qua đợt bán tháo mạnh nhất trong những năm gần đây. Cổ phiếu của công ty AI đám mây Nebius đã giảm 40%. Câu chuyện rất đơn giản: mô hình mã nguồn mở Trung Quốc bán token với giá 0,1 USD, công ty Mỹ chi 2 USD, nhu cầu tính toán chắc chắn sẽ sụp đổ.
Bùng nổ: Tổng chi tiêu tăng 320%
Nhưng những gì thực sự xảy ra hoàn toàn ngược lại.
Roman Chernin, đồng sáng lập Nebius, sau đó nhớ lại: Tuần DeepSeek gây ra sự hoảng loạn, "có lẽ là tuần bán hàng tốt nhất của chúng tôi". Phản ứng đầu tiên của bộ phận mua hàng khi thấy chi phí giảm mạnh không phải là cắt ngân sách, mà là cuối cùng họ cũng có thể chạy suy luận ở quy mô lớn.
Năm 2024, tổng chi tiêu AI tạo sinh của các doanh nghiệp toàn cầu là khoảng 11,5 tỷ USD. Năm 2025, con số này đã tăng vọt lên 37 tỷ USD – tăng 320% trong một năm. Theo khảo sát doanh nghiệp của Menlo Ventures, doanh nghiệp trung bình trong năm 2025 đang chạy "hàng chục" ứng dụng AI, trong khi năm 2023 con số này là 1 đến 2.
Dữ liệu từ nhiều khía cạnh khác nhau đều nằm trên cùng một đường cong:
Uber đã sử dụng hết ngân sách AI cho cả năm vào tháng 4 năm 2026. AT&T hiện xử lý 27 tỷ token mỗi ngày – 18 tháng trước, con số này là 800 triệu. Một công ty bảo hiểm y tế lớn của Mỹ, mức tiêu thụ token hàng tháng đã tăng vọt từ 3 triệu lên hơn 150 triệu.
Phân tích ra, sự tăng trưởng đến từ sự kết hợp của ba hướng.
Thứ nhất là sự lan tỏa ứng dụng. Phòng marketing của mỗi doanh nghiệp sử dụng 3 công cụ AI, phòng bán hàng 4 cái, phòng dịch vụ khách hàng 2 cái, cộng với pháp lý, nhân sự, tài chính – từ 2 cái lên hàng chục cái, đây là một bước nhảy về số lượng.
Thứ hai là chiều sâu của từng ứng dụng. Lấy AI chăm sóc khách hàng làm ví dụ: năm 2023, tương tác hàng ngày khoảng 500 lần, mỗi lần khoảng 800 token, kết thúc sau khi trò chuyện. Đến năm 2025, tương tác hàng ngày là 15.000 lần, mỗi lần khoảng 4500 token, và mỗi tương tác lại kích hoạt thêm 3 đến 5 lần suy luận tiếp theo – phân tích cảm xúc, dự đoán nâng cấp, đánh giá chất lượng – tất cả đều chồng lên cùng một điểm đầu vào.
Thứ ba là sự nâng cấp độ phức tạp của chính mô hình. Từ mô hình đơn vòng 7B tham số, nâng cấp lên tác nhân suy luận đa bước trên 70B, số token tiêu thụ trong mỗi vòng suy luận nội bộ gấp hàng chục đến hàng trăm lần so với tương tác tuyến tính.
Nói cách khác, chi phí token giảm xuống còn một phần nghìn, nhưng số lượng token được thị trường sử dụng đã tăng lên hàng vạn lần. Hiệu ứng ròng của phép nhân này chỉ có một hướng: chi tiêu bùng nổ.
Mức tiêu thụ token tăng gấp đôi sau mỗi hai tháng – nhiều manh mối độc lập đều cho ra cùng một con số. Kẻ đường cong hàm mũ này đến năm 2027, chi tiêu AI hàng năm của doanh nghiệp vượt 100 tỷ USD là một bài toán số học, không phải là một dự đoán.
Sự lan truyền: Bộ nhớ tăng gấp sáu lần, cơ sở hạ tầng chip hướng tới 7,6 nghìn tỷ
Nhu cầu được kích thích bởi việc giảm giá không dừng lại ở lớp phần mềm.
Mức tăng giá của bộ nhớ là tín hiệu trực tiếp nhất cho thấy nhu cầu AI đang truyền từ lớp mô hình xuống lớp phần cứng.
Kể từ quý 3 năm 2025, giá giao ngay của DRAM và NAND Flash đã tăng hơn 300%. Trong một tháng, giá hạt DDR5 đã có lúc tăng hơn 90%. Bước sang năm 2026, giá tăng không những không dừng lại mà còn tăng tốc.
Trong quý 1, mức tăng giá hợp đồng DRAM đã được điều chỉnh tăng từ 55%-60% dự kiến lên 90%-95%; NAND từ 33%-38% lên 55%-60%. Dự báo của TrendForce cho quý 2 là DRAM sẽ tăng thêm 58%-63%, NAND tăng thêm 70%-75%.
Lấy sản phẩm tiêu dùng làm điểm neo: Bộ nhớ đôi 32G DDR5 6000 của Acer Predator, cuối tháng 10 năm 2025 giá còn 1300 NDT, đến tháng 1 năm 2026 đã tăng vọt lên 2700 NDT. Tăng gấp đôi trong ba tháng là điều cực kỳ hiếm thấy trên thị trường hàng tiêu dùng.
Mảng kinh doanh bộ nhớ của Samsung đã ghi nhận lợi nhuận hoạt động quý cao nhất lịch sử trong quý 4 năm 2025 – vượt 20 nghìn tỷ won, tương đương khoảng 96,2 tỷ NDT. Và động lực căn bản nhất cho sự tăng trưởng này trong hơn một năm qua không đến từ việc nâng cấp tiêu dùng của điện thoại di động hay PC, mà là từ việc mua sắm khổng lồ HBM, SSD cấp doanh nghiệp và DRAM mật độ cao của các trung tâm dữ liệu AI.
Một báo cáo của Goldman Sachs vào tháng 5 đã tính toán đến mức tột cùng khoản chi này.
Báo cáo dự đoán, tổng chi tiêu vốn tích lũy cho cơ sở hạ tầng AI toàn cầu từ năm 2026 đến 2031 là khoảng 7,6 nghìn tỷ USD. Năm 2026 là 765 tỷ USD, đến năm 2031 sẽ tăng lên 1,6 nghìn tỷ. Trong đó, một GPU cơ sở (dựa trên NVIDIA VR200 Rubin) được tính với giá 80.500 USD, NVIDIA chiếm 75% tổng chi tiêu sức mạnh tính toán trong mỗi giai đoạn.
Goldman Sachs cũng đặt ra một câu hỏi quan trọng trong báo cáo: Nếu ASIC (chip chuyên dụng) thay thế phần lớn GPU, liệu có thể cắt giảm tổng nhu cầu không?
Câu trả lời phụ thuộc vào từng trường hợp. Nếu nhu cầu không co giãn – nhu cầu sức mạnh tính toán AI của doanh nghiệp là cố định – thì việc thay thế bằng ASIC có thể trực tiếp giảm tổng nhu cầu vốn. Nhưng nếu nhu cầu co giãn – sức mạnh tính toán càng rẻ thì càng mua nhiều – thì sự thay đổi trong tổ hợp chip chủ yếu định hình lại sự phân bổ lợi nhuận giữa các nhà cung cấp khác nhau, chứ không phải quy mô tổng chi tiêu.
Kịch bản cơ sở của Goldman Sachs chọn trường hợp thứ hai.
Giá cổ phiếu Mỹ cũng đang đi theo cùng một hướng. SanDisk đã tăng 857% kể từ đầu năm, và trong báo cáo ngày 30 tháng 6, Bernstein đã nâng mục tiêu giá lên 3000 USD. AMD tăng 7% trong một ngày, đạt mức cao nhất lịch sử. Các công ty làm GPU, làm bộ nhớ, làm đóng gói, làm thiết bị trung tâm dữ liệu – tất cả đều ở gần mức cao mới.
Con số được trích dẫn trong bài tổng quan của Edgen.tech ngày 11 tháng 6 có sức tác động lớn nhất: Giá chip bộ nhớ đã tăng g


