Polymarket định giá sai? 200 đại lý AI mô phỏng khủng hoảng đưa ra câu trả lời bất ngờ

区块律动BlockBeats

特邀专栏作者

2026-03-18 06:10

Bài viết này có khoảng 5513 từ, đọc toàn bộ bài viết mất khoảng 8 phút

Càng nhiều người tham gia, cấu trúc thảo luận càng phong phú và tín hiệu cuối cùng hình thành càng có giá trị.

Tóm tắt AI

Mở rộng

Quan điểm cốt lõi: Một thí nghiệm sử dụng MiroFish để mô phỏng cuộc thảo luận nhóm của 200 đại lý AI về khủng hoảng eo biển Hormuz phát hiện ra rằng dự đoán tự phát của các đại lý trong thảo luận tự do (trung bình 47,9%) khác biệt đáng kể so với dự đoán thị trường Polymarket (31%). Hơn nữa, dự đoán của một số ít đại lý chuyên gia bi quan trong thảo luận tự do (trung bình 22%) gần nhất với định giá thị trường, tiết lộ sự chênh lệch có hệ thống giữa bày tỏ công khai và đánh giá rủi ro thực tế.
Yếu tố then chốt:
1. Thí nghiệm xây dựng một mạng xã hội mô phỏng gồm 200 vai trò như chính phủ, truyền thông, tổ chức tài chính, dựa trên biểu đồ tri thức báo cáo 5800 ký tự, tạo ra 1888 bài đăng và nhiều hành vi tương tác trong kỳ mô phỏng 7 ngày.
2. Thảo luận tự do nhóm (kết quả hữu cơ) nhìn chung lạc quan, xác suất dự đoán trung bình là 47,9%, trong khi xác suất tương ứng với định giá thị trường Polymarket là 31%, chênh lệch 16,9 điểm phần trăm.
3. Trong thảo luận tự do, 7 đại lý chuyên gia thiểu số tự đưa ra dự đoán bi quan (≤30%) có giá trị dự đoán trung bình (22%) gần nhất với kết quả thị trường, sai số trong vòng 10 điểm phần trăm.
4. Khi hỏi trực tiếp các đại lý dưới hình thức phỏng vấn, hầu như tất cả đều đưa ra dự đoán lạc quan và hợp tác hơn (giá trị trung bình các loại đều trên 60%), tương phản rõ rệt với biểu hiện trong thảo luận tự do.
5. Thí nghiệm tiết lộ sự phân tách tương tự trong thế giới thực: phát ngôn công khai thường có xu hướng ổn định và lạc quan, trong khi đánh giá rủi ro thực tế lại ẩn trong hành động thực tế, biểu đạt không chính thức hoặc đặt cược trên thị trường.

Tiêu đề gốc: how I run 200 AI agents on the hormuz crisis with Mirofish, and compare it to polymarket

Tác giả gốc: The Smart Ape

Biên dịch: Peggy, BlockBeats

Lời tựa của biên tập viên: Khi AI bắt đầu có thể mô phỏng một trường court of public opinion, bản thân việc dự đoán cũng đang thay đổi một cách âm thầm.

Bài viết này ghi lại một thử nghiệm xoay quanh tình hình eo biển Hormuz: Tác giả sử dụng MiroFish để xây dựng một hệ thống mô phỏng gồm 200 agent, để chính phủ, truyền thông, công ty năng lượng, trader và người dân thông thường cùng tồn tại trong một mạng xã hội mô phỏng, hình thành phán đoán thông qua tương tác, tranh luận và lan truyền thông tin liên tục, và so sánh kết quả tập thể này với định giá thị trường của Polymarket.

Kết quả không nhất quán. Thảo luận nhóm nhìn chung thiên về lạc quan, trong khi thị trường bi quan hơn đáng kể; trong phát biểu tự do, số ít người bi quan lại gần với định giá thực tế hơn; và một khi bước vào tình huống phỏng vấn, hầu như tất cả các agent đều hội tụ về cách diễn đạt ôn hòa, hợp tác hơn.

Sự phân ly này không xa lạ. Trong thế giới thực, phát biểu công khai thường có xu hướng ổn định và lạc quan, trong khi đánh giá rủi ro thực sự lại ẩn giấu trong hành động và biểu đạt không chính thức. Nói cách khác, cách mọi người nói, cách họ nghĩ và cách họ đặt cược bằng tiền thường là ba hệ thống khác nhau.

Trong cấu trúc như vậy, tín hiệu có giá trị nhất thường không đến từ sự đồng thuận, mà từ những tiếng nói có vẻ không hòa hợp trong tiếng ồn.

Dưới đây là bài viết gốc:

Tôi đã sử dụng MiroFish để mô phỏng tình hình eo biển Hormuz trong vài tuần tới. Công cụ này xuất sắc trong việc xử lý các vấn đề loại này vì nó có thể thực hiện diễn biến tình huống cực kỳ phức tạp: đưa nhiều chủ thể tham gia, các vai trò khác nhau và động cơ khuyến khích riêng của họ vào cùng một hệ thống, và để các agent này liên tục cạnh tranh, tranh luận, cuối cùng dần hình thành một kết quả gần với đồng thuận.

Dưới đây là các bước cụ thể tôi đã chạy mô phỏng này, và kết quả cuối cùng tôi nhận được. Bất kỳ ai cũng có thể tái hiện, chìa khóa chỉ là biết nên thực hiện theo những bước nào.

Đầu tiên, MiroFish là một dự án mã nguồn mở từ một nhóm nghiên cứu Trung Quốc. Sau khi bạn nhập vào một loạt tài liệu, nó sẽ xây dựng một knowledge graph, sau đó dựa trên graph này để tạo ra các tính cách agent khác nhau, rồi đưa các agent này vào một môi trường Twitter mô phỏng. Trong môi trường này, chúng sẽ đăng bài, retweet bình luận, thích, tranh luận với nhau. Sau khi mô phỏng kết thúc, bạn cũng có thể phỏng vấn từng agent một, xem lập trường và quá trình suy luận của từng agent.

Bạn nhập vào một kịch bản khủng hoảng, nó sẽ tạo ra một cuộc tranh luận xoay quanh sự kiện đó; từ cuộc tranh luận này, bạn có thể rút ra một kết quả dự đoán.

Tôi hướng nó vào một vấn đề thị trường Polymarket đang diễn ra: Đến cuối tháng 4 năm 2026, vận tải đường biển qua eo biển Hormuz có trở lại bình thường không?

Vì vậy, tôi đã đưa tất cả thông tin này vào MiroFish, tạo ra 200 vai trò agent - bao gồm chính phủ, truyền thông, quân đội, công ty năng lượng, trader và công chúng - sau đó để họ tranh luận trong một môi trường mô phỏng trong 7 ngày mô phỏng. Cuối cùng, so sánh kết quả đầu ra của họ với định giá thị trường.

Cấu hình tổng thể như sau:

· Model: GPT-4o mini, trong kịch bản 200 agent, cân bằng giữa chi phí và hiệu quả tốt nhất

· Hệ thống bộ nhớ: Zep Cloud, dùng để lưu trữ ký ức agent và knowledge graph

· Engine mô phỏng: OASIS (môi trường clone Twitter do Camel-AI cung cấp)

· Phần cứng: Mac mini M4 Pro, 24GB RAM

· Thời gian chạy: khoảng 49 phút, hoàn thành 100 vòng mô phỏng

· Chi phí: Gọi API khoảng 3 đến 5 USD

· Tài liệu seed: Một bản tóm tắt 5800 ký tự, tổng hợp từ Wikipedia, CNBC, Al Jazeera, Forbes, Reuters, nội dung bao gồm timeline quân sự, tình trạng phong tỏa, giá dầu, thiệt hại kinh tế, nỗ lực ngoại giao, và các yếu tố liên quan đến đầu tư 3.2 nghìn tỷ USD của GCC. Nghĩa là, thông tin cốt lõi cần thiết để agent hình thành phán đoán đều được đưa vào.

Cách tái hiện quy trình này (hướng dẫn từng bước)

Nếu bạn cũng muốn tự chạy một lần, dưới đây là các bước đầy đủ tôi đã thực hiện. Toàn bộ quy trình mất khoảng 2 giờ để thiết lập, chi phí API khoảng 3 đến 5 USD; nếu bạn tăng số vòng hoặc số lượng agent, chi phí sẽ cao hơn.

Những thứ bạn cần chuẩn bị

· Python 3.12 (không dùng 3.14, tiktoken sẽ báo lỗi trên phiên bản này)

· Node.js 22 trở lên

· Một OpenAI API Key (GPT-4o mini đủ rẻ, phù hợp với kịch bản này)

· Một tài khoản Zep Cloud (bản miễn phí là đủ cho mô phỏng quy mô nhỏ)

· Một máy có RAM khá. Tôi dùng Mac mini M4 Pro, 24GB RAM, nhưng 16GB có lẽ cũng đủ

Bước 1: Cài đặt MiroFish

Sau đó cấu hình file .env của bạn

OPENAI_API_KEY=sk-your-key

OPENAI_BASE_URL=link

OPENAI_MODEL=gpt-4o-mini

ZEP_API_KEY=your-zep-key

Bước 2: Tạo dự án và tải lên tài liệu seed của bạn

Tài liệu seed là phần quan trọng nhất trong toàn bộ quy trình, nó quyết định agent biết những thông tin gì về tình hình hiện tại. Tôi đã chuẩn bị một bản tóm tắt khoảng 5800 ký tự, nội dung bao gồm timeline quân sự, tình trạng phong tỏa, giá dầu, thiệt hại kinh tế, nỗ lực ngoại giao, và tác động ở cấp độ đầu tư GCC, nguồn tài liệu bao gồm Wikipedia, CNBC, Al Jazeera, Forbes và Reuters.

Bước 3: Tạo ontology

Bước này là để nói với MiroFish, nó nên nhận diện những loại thực thể nào, và giữa các thực thể này có thể tồn tại mối quan hệ gì.

Bên tôi cuối cùng đã tạo ra 10 loại thực thể: quốc gia, quân đội, nhân viên ngoại giao, thực thể thương mại, cơ quan truyền thông, thực thể kinh tế, tổ chức, cá nhân, cơ sở hạ tầng, thị trường dự đoán; và 6 loại quan hệ. Nếu kết quả tự động tạo không phù hợp lắm với kịch bản của bạn, bạn cũng có thể điều chỉnh thủ công.

Bước 4: Xây dựng knowledge graph

Bước này sẽ sử dụng Zep Cloud. MiroFish sẽ gửi tài liệu seed và ontology cùng nhau cho Zep, và Zep chịu trách nhiệm trích xuất thực thể và xây dựng graph.

Quá trình này mất khoảng một hai phút. Tôi cuối cùng nhận được một graph chứa 65 node, 85 edge, trong đó kết nối các yếu tố như quốc gia, nhân vật, tổ chức, hàng hóa, v.v.

Bước 5: Tạo agent

MiroFish sẽ dựa trên knowledge graph, tạo ra một bộ thiết lập tính cách hoàn chỉnh cho mỗi thực thể, bao gồm loại tính cách MBTI, tuổi, quốc gia thuộc về, phong cách đăng bài, điểm kích hoạt cảm xúc, chủ đề cấm kỵ, và ký ức thể chế, v.v.

Ban đầu tôi đã tạo ra 43 agent cốt lõi từ knowledge graph. Sau đó, hệ thống còn có thể mở rộng các vai trò cốt lõi này đến tổng số lượng bạn muốn. Tôi cuối cùng đặt tổng số agent là 200, và thêm vào nhiều vai trò dân thường đa dạng hơn, chẳng hạn như crypto trader, phi công hàng không, giáo sư, sinh viên, nhà hoạt động xã hội, v.v.

Bước 6: Chuẩn bị môi trường mô phỏng

Bước này sẽ tạo ra cấu hình mô phỏng hoàn chỉnh, bao gồm lịch trình hành động của agent, bài đăng seed ban đầu và tham số thời gian. MiroFish sẽ tự động chọn một bộ cài đặt mặc định tương đối hợp lý, chẳng hạn như giờ cao điểm hoạt động, thời gian ngủ và tần suất đăng bài riêng của các loại agent khác nhau.

Cấu hình của tôi lúc đó là: mô phỏng tổng cộng 168 giờ (7 ngày), 100 vòng (mỗi vòng đại diện cho 1 giờ), chỉ sử dụng kịch bản Twitter, và đặt lịch trình hoạt động riêng cho các agent khác nhau.

Bước 7: Bắt đầu chạy mô phỏng.

Sau đó là chờ đợi. Bên tôi dùng GPT-4o mini chạy 200 agent, 100 vòng mô phỏng, mất khoảng 49 phút. Bạn có thể theo dõi tiến độ qua API, hoặc xem trực tiếp nhật ký.

Trong suốt quá trình, agent sẽ chạy tự chủ: chúng sẽ quan sát timeline, quyết định xem mình sẽ đăng bài, retweet bình luận, chia sẻ lại, thích, hay chỉ đơn giản là lướt feed, toàn bộ quá trình không cần can thiệp thủ công.

Bước 8 (tùy chọn): Phỏng vấn agent

Sau khi mô phỏng kết thúc, hệ thống sẽ vào chế độ lệnh. Lúc này bạn có thể phỏng vấn riêng một agent, hoặc phỏng vấn tất cả agent cùng một lúc:

Phân tích

MiroFish sẽ đọc tài liệu seed trước, và tự động tạo ra cấu trúc ontology (bao gồm 10 loại thực thể và 6 loại quan hệ); sau đó dựa trên các định nghĩa này trích xuất một knowledge graph (chứa 65 node và 85 edge). Trên cơ sở này, nó sẽ xây dựng một bộ thiết lập tính cách hoàn chỉnh cho mỗi thực thể, bao gồm các yếu tố như loại tính cách MBTI, tuổi, quốc gia thuộc về, phong cách đăng bài, điểm kích hoạt cảm xúc và ký ức thể chế.

Cuối cùng, từ knowledge graph đã tạo ra 43 agent cốt lõi, và trên cơ sở này mở rộng đến tổng số 200 agent, đưa vào nhiều vai trò dân thường đa dạng hơn, để tăng cường tính đa dạng và cảm giác chân thực tổng thể của mô phỏng.