Token Budget Wars: Enterprise AI Enters the "Accounting Era"

区块律动BlockBeats

特邀专栏作者

2026-05-28 12:00

Bài viết này có khoảng 4591 từ, đọc toàn bộ bài viết mất khoảng 7 phút

AI Costs, ROI, and Internal Enterprise Resource Allocation

Tóm tắt AI

Mở rộng

Core Insight: Enterprise AI is shifting from "whether to adopt" to "how to account for it," with the core contradiction being the difficulty of directly linking token costs to business value. The next critical phase is not about model capability, but about the ability to accurately attribute token consumption to specific business outcomes, thereby determining the allocation of AI resources.
Key Elements:
1. AI inference costs have transitioned from experimental budgets to ongoing operational expenses, with CEOs and CFOs demanding quantification of the actual value generated by every dollar spent on tokens.
2. Token consumption does not equal value: costs for the same workflow can vary by 5-10 times due to factors such as prompts, context length, model selection, and the number of retries.
3. Marginal token utility is a core metric, referring to the business value created by each additional dollar spent on inference costs, but most companies currently cannot track this.
4. AI budget requests essentially compete with labor costs; replacing outsourced business processes (BPO) makes it easier to establish quantitative benchmarks than replacing internal employees.
5. The long tail of retries, context bloat, and improper routing are the three main causes of uncontrolled token costs, significantly altering the economic equation.
6. Due to the lack of attribution from tokens to results, companies need to capture the decision-making trajectory of agents to explain "why" a specific workflow succeeded or failed.
7. Companies that master attribution capabilities can make allocation decisions (such as workflow optimization, model switching) and ultimately control the flow of AI resources within the enterprise.

Tiêu đề gốc: Token Budget Wars

Tác giả gốc: Jaya Gupta

Biên dịch gốc: Peggy

Lời tòa soạn: AI doanh nghiệp đang chuyển từ giai đoạn "có nên áp dụng" sang giai đoạn "làm thế nào để tính toán".

Trong hai năm qua, nhiều công ty thúc đẩy nhân viên sử dụng AI chủ yếu để theo kịp xu hướng công nghệ và áp lực cạnh tranh. Nhưng khi chi phí suy luận AI chuyển từ ngân sách thử nghiệm thành chi phí vận hành liên tục, CEO và CFO bắt đầu đặt ra một câu hỏi thực tế hơn: AI thực sự tạo ra bao nhiêu giá trị? Mỗi đô la chi cho token đã mang lại kết quả thực tế nào?

Đây chính là cốt lõi của "Token Budget Wars". Cái gọi là cuộc chiến ngân sách token không chỉ đơn thuần là doanh nghiệp muốn giảm hóa đơn AI, mà còn là để đánh giá lại xem lĩnh vực kinh doanh nào xứng đáng đầu tư nhiều sức mạnh tính toán hơn, nhiệm vụ nào nên chuyển sang mô hình rẻ hơn, quy trình nào có thể thay thế gia công hoặc nhân công, và đâu chỉ là sự tiêu hao vô ích.

Điều đáng chú ý nhất trong bài viết là lượng sử dụng AI không đồng nghĩa với giá trị. Trong thời đại SaaS, lượng sử dụng thường có nghĩa là phần mềm đã được chấp nhận; nhưng trong thời đại AI, tiêu thụ token chỉ cho thấy "đồng hồ đo đang chạy". Cùng một quy trình làm việc, do sự khác biệt về prompt, ngữ cảnh, lựa chọn mô hình và số lần thử lại, có thể tạo ra chênh lệch chi phí gấp nhiều lần. Hóa đơn tăng cao có thể là do AI thực sự đang làm việc, hoặc cũng có thể là do hệ thống đang lãng phí vào những việc vô hiệu.

Vì vậy, giai đoạn tiếp theo của AI doanh nghiệp, điều quan trọng không chỉ là năng lực mô hình, mà còn là khả năng kết nối chi phí token với kết quả kinh doanh. Giai đoạn đầu đã chứng minh AI có thể hoàn thành công việc; giai đoạn thứ hai phải trả lời: những công việc này có thực sự đáng để trả tiền không?

Sau đây là nội dung gốc:

AI doanh nghiệp đã chuyển từ "có nên áp dụng" sang "làm thế nào để phân bổ".

Ở cấp quản lý cấp cao, "đồng tiền" mới là khả năng định lượng lợi tức đầu tư AI của bạn. Mỗi bộ phận chức năng đều phải đối mặt với cùng một câu hỏi: Bạn đã tạo ra những gì? Chi phí là bao nhiêu? Trong hai năm qua, các CEO vừa thức dậy xem Jim Cramer trên CNBC (#bearish), vừa nhìn các đối thủ cạnh tranh công bố cải thiện năng suất, và sau đó yêu cầu toàn công ty sử dụng AI. Điều thực sự gây áp lực bây giờ là câu hỏi tiếp theo: Hãy chứng minh giá trị cho tôi thấy.

Claude được phát hành vào tháng 11 năm 2025, và lúc đó hầu hết ngân sách năm 2026 của các doanh nghiệp đã được chốt. Đến quý 1, lượng sử dụng thực tế của doanh nghiệp đã vượt xa kế hoạch ban đầu. Chi phí suy luận không còn chỉ là một hạng mục ngân sách dành cho thử nghiệm, mà đã trở thành chi phí vận hành liên tục. Kéo theo đó là một câu hỏi mới: AI thực sự tạo ra giá trị ở đâu?

Câu hỏi này khó trả lời vì tiện ích của token chưa được định lượng. Hóa đơn không thể cho bạn biết khoản chi này là để thay thế nhân công, tạo doanh thu, giảm rủi ro, tăng tốc quy trình, hay chỉ là một nhóm kỹ sư điên cuồng chạy token để leo bảng xếp hạng (#metamates). Khi chi tiêu chỉ vài trăm nghìn đô la, nó trông vẫn giống một cuộc thử nghiệm. Nhưng vượt quá một ngưỡng nhất định, ví dụ lên đến bảy con số, nó trở thành cơ sở hạ tầng. Sự khác biệt về mặt kỹ thuật bắt đầu có tác động thực chất đến báo cáo lãi lỗ: cùng một quy trình làm việc, cùng một tập đầu vào, chi phí token của hai lần chạy có thể chênh lệch 5 đến 10 lần, nhưng bề ngoài trông không có vấn đề gì. Ở quy mô thử nghiệm, sự biến động này đã khá đắt đỏ; nhưng một khi bước vào quy mô cơ sở hạ tầng, nó trở thành con số mà CFO phải giải thích cho CEO.

Có thể gọi nó là "tiện ích biên của token": giá trị kinh doanh được tạo ra trên mỗi đô la chi phí suy luận tăng thêm. Đây là con số thực sự quan trọng trong giai đoạn mở rộng quy mô và là con số mà hầu hết các công ty hiện không thể nhìn thấy.

Câu hỏi trong phòng họp đang chuyển từ "AI có hữu ích không" sang "AI thực sự tạo ra đòn bẩy ở đâu". Cũng chính vì vậy, cái gọi là cuộc chiến ngân sách token, về bản chất là cuộc chiến giành quyền phân bổ token.

Và cuộc chiến giành quyền sở hữu token nóng lên nhanh chóng vì nó đang va chạm với một bản năng của giới quản lý cấp cao đã tồn tại ba mươi năm: đội ngũ lớn đồng nghĩa với vị trí lớn, phạm vi trách nhiệm lớn và quyền lực lớn hơn. Trước đây, dấu hiệu hữu hình cho sự thành công của các nhà quản lý cấp cao là quy mô đội ngũ họ quản lý – cấp dưới trực tiếp, cấp dưới gián tiếp và số lượng người trong cơ cấu tổ chức.

Nhưng khi trí thông minh trở thành nguồn lực khan hiếm, dấu hiệu mới trở thành: bạn có thể điều phối bao nhiêu trí thông minh.

Chi tiêu AI về bản chất đang cạnh tranh với chi phí lao động.

Hầu hết các yêu cầu ngân sách AI, về bản chất là một trong ba loại tuyên bố: thay thế lao động gia công, thay thế lao động nội bộ hoặc tạo doanh thu mới.

Một nhân viên có lương. Một hợp đồng gia công BPO có giá dựa trên đơn hàng, yêu cầu bồi thường, hóa đơn hoặc xem xét. Con người có thể hiểu các đơn vị đo lường này. Nhưng chi phí suy luận phức tạp hơn, vì chi phí cuối cùng để hoàn thành một nhiệm vụ phụ thuộc vào cách hệ thống chạy trong quá trình thực hiện. Một nhiệm vụ yêu cầu bồi thường cần ba lần thử lại, sửa chữa thủ công và gọi mô hình tiên tiến, có thể đắt hơn cả lao động gia công mà nó định thay thế. Cũng chính vì vậy, cuộc thảo luận đang chuyển sang: chi phí để hoàn thành một kết quả là bao nhiêu? Ví dụ, chi phí cho mỗi yêu cầu đã giải quyết, mỗi yêu cầu bồi thường đã xử lý, mỗi hợp đồng đã xem xét, mỗi hóa đơn đã hoàn thành, mỗi vị trí tuyển dụng tránh được, mỗi khách hàng giữ chân được, hoặc mỗi đô la doanh thu chuyển đổi.

Các nhà quản lý cấp cao đã nhận ra rằng BPO là nơi dễ dàng thiết lập điểm chuẩn nhất, vì những công việc này vốn đã được định giá theo "đơn vị hoàn thành". So sánh với nhân viên nội bộ khó khăn hơn nhiều, vì nhân viên làm nhiều việc mỗi ngày, bao gồm cả lướt TikTok trong giờ nghỉ trưa; cải thiện năng suất thường thể hiện ở việc tránh tuyển dụng hoặc giải phóng năng lực phân tán; và các nhà quản lý cũng kháng cự việc cắt giảm nhân sự chỉ dựa trên tự động hóa một phần. BPO cung cấp cho các nhóm kinh doanh một đường cơ sở có thể định lượng.

Điều này khác với logic của SaaS. SaaS từng rèn luyện doanh nghiệp coi lượng sử dụng là chỉ số đại diện cho giá trị.

Nhưng AI đã phá vỡ điều này. Cùng một quy trình làm việc tiêu thụ bao nhiêu tài nguyên suy luận có thể khác biệt rất lớn do prompt, ngữ cảnh được truy xuất, mô hình được chọn, công cụ được gọi, số lần thử lại và liệu agent có bị kẹt hay không. Đơn vị trên hóa đơn – token – là ổn định, nhưng khối lượng công việc mà nó đại diện thì không ổn định.

Chính xác hơn: tín hiệu và nhiễu sử dụng cùng một đơn vị đo lường. Hóa đơn token tăng có thể có nghĩa là công việc thực sự đang được hoàn thành; nhưng cũng có thể có nghĩa là sức mạnh tính toán đang bị lãng phí vào các prompt tồi, ngữ cảnh không liên quan, gọi công cụ không cần thiết, suy luận lặp lại và mô hình dư thừa năng lực. Hóa đơn token của hai doanh nghiệp có thể giống hệt nhau, nhưng hoạt động kinh doanh bên dưới lại hoàn toàn khác: một doanh nghiệp đang chuyển đổi suy luận thành kết quả, doanh nghiệp kia thì đang trả tiền cho những việc lãng phí, và cả hai trường hợp này trông giống hệt nhau trên các khoản mục hóa đơn.

Lượng sử dụng của SaaS cho bạn biết: phần mềm đã được chấp nhận. Lượng sử dụng của AI chỉ cho bạn biết: đồng hồ đo đang chạy. Nó không thể cho bạn biết liệu công ty có thực sự đang hoạt động hiệu quả hay không.

Tại sao tiện ích biên của token khó nhìn thấy?

Có ba điểm chính.

Thứ nhất là đuôi dài của các lần thử lại. Nếu xác suất một agent hoàn thành chính xác quy trình làm việc ngay lần đầu là p, thì mức tiêu thụ token dự kiến cho mỗi quy trình làm việc đã giải quyết sẽ được mở rộng theo T/p, trong đó T là chi phí cơ bản. Nếu tỷ lệ hoàn thành giảm từ 90% xuống 70%, chi phí hiệu quả cho mỗi lần giải quyết vấn đề sẽ tăng khoảng 28%, chứ không phải 20%, vì thất bại tạo ra hiệu ứng cộng dồn. Trong quy trình làm việc của doanh nghiệp, đầu vào thường lộn xộn và các trường hợp ngoại lệ cũng rất quan trọng. Thất bại không chỉ làm giảm độ chính xác mà còn thay đổi bức tranh kinh tế.

Thứ hai là sự phình to của ngữ cảnh. Đối với các hoạt động phụ thuộc nhiều vào cơ chế chú ý, chi phí suy luận tăng theo O(n²) cùng với độ dài ngữ cảnh. Do đó, độ dài ngữ cảnh tăng gấp đôi, chi phí suy luận tăng gấp bốn lần. Ai cũng muốn mô hình có đủ thông tin, nên hệ thống thường cung cấp quá mức: năm tài liệu là đủ, nhưng truy xuất lại kéo về năm mươi; trình kết nối đổ toàn bộ chuỗi email vào; agent mang theo lịch sử hội thoại đã lỗi thời tiếp tục chạy.

Thứ ba là định tuyến. Khi nhóm không biết mô hình nào là "đủ tốt", họ mặc định sử dụng mô hình mạnh nhất. Một nhiệm vụ phân loại cơ bản có thể được chạy trên cùng một mô hình vốn dùng cho suy luận phức tạp. Khi số lượng lệnh gọi lên tới hàng triệu, việc giao các nhiệm vụ đơn giản cho mô hình nhỏ, hay giao tất cả cho mô hình tiên tiến, thường là sự khác biệt giữa một hóa đơn có thể kiểm soát và một vấn đề ở cấp hội đồng quản trị.

Các ngành công nghiệp phi phần mềm sẽ cảm nhận nỗi đau này dưới dạng một "sự chuyển đổi". Các công ty phần mềm sẽ nhìn thấy vấn đề này trước, vì công việc được tối ưu hóa vốn đã được đo lường đầy đủ. Các nhóm kỹ thuật có các chỉ số như PR, commit, triển khai, sự cố, thời gian chu kỳ, thời gian phục hồi trung bình, và các chỉ số này được kết nối với sản phẩm. Mặc dù không hoàn hảo, nhưng loại công việc này dễ đo lường hơn.

Các doanh nghiệp phi phần mềm sẽ cảm nhận vấn đề này sâu sắc hơn, vì công việc của họ mang tính vận hành. Ví dụ, yêu cầu bồi thường, bảo lãnh, vé hỗ trợ khách hàng, xem xét tuân thủ, bất thường trong chuỗi cung ứng, tranh chấp thanh toán. Hoặc, các công ty có tài sản

Chào mừng tham gia cộng đồng chính thức của Odaily