เหตุใดการสร้างโมดูลาร์แบบหลายโหมดจึงถือเป็นภาพลวงตาสำหรับ Web3 AI

特邀专栏作者

2025-06-18 12:44

บทความนี้มีประมาณ 6448 คำ การอ่านทั้งหมดใช้เวลาประมาณ 10 นาที

อนาคตของ Web3 AI ไม่ได้อยู่ที่การเลียนแบบ แต่อยู่ที่การเลี่ยงทางยุทธศาสตร์ ตั้งแต่การจัดเรียงความหมายในพื้นที่มิติสูง ไปจนถึงคอขวดข้อมูลในกลไกการให้ความสนใจ ไปจนถึงการจัดเรียงคุณลักษณะภายใต้พลังการประมวลผลที่ไม่เป็นเนื้อเดียวกัน ฉันจะอธิบายว่าทำไม Web3 AI จึงควรใช้แนวทางจากชนบทสู่เมืองเป็นโปรแกรมเชิงกลยุทธ์

สรุปโดย AI

ขยาย

บทความต้นฉบับโดย @BlazingKevin_ นักวิจัยที่ Movemaker

Nvidia ได้กอบกู้ความสูญเสียทั้งหมดที่เกิดจาก Deepseek อย่างเงียบ ๆ และแม้แต่ไต่ขึ้นสู่จุดสูงสุดใหม่ วิวัฒนาการของโมเดลมัลติโหมดไม่ได้นำความโกลาหลมาสู่ตัวเอง แต่กลับทำให้อุปสรรคทางเทคนิคของ Web2 AI ลึกซึ้งยิ่งขึ้น ตั้งแต่การจัดแนวความหมายไปจนถึงการทำความเข้าใจภาพ จากการฝังในมิติสูงไปจนถึงการผสานรวมคุณสมบัติ โมเดลที่ซับซ้อนกำลังผสานการแสดงออกของโหมดต่างๆ ด้วยความเร็วที่ไม่เคยมีมาก่อนเพื่อสร้าง AI ที่ปิดมากขึ้นเรื่อย ๆ ตลาดหุ้นสหรัฐฯ ก็โหวตเช่นกัน ไม่ว่าจะเป็นหุ้นสกุลเงินหรือหุ้น AI ต่างก็ผ่านคลื่นของตลาดกระทิงมาแล้ว อย่างไรก็ตาม คลื่นความร้อนนี้ไม่มีส่วนเกี่ยวข้องกับ Crypto ความพยายามในการใช้ Web3 AI ที่เราเห็น โดยเฉพาะวิวัฒนาการของ Agent ในช่วงไม่กี่เดือนที่ผ่านมา แทบจะผิดไปโดยสิ้นเชิงในทิศทางนั้น การคิดปรารถนาที่จะใช้โครงสร้างแบบกระจายอำนาจเพื่อประกอบระบบโมดูลาร์มัลติโหมดสไตล์ Web2 นั้นแท้จริงแล้วเป็นการย้ายเทคโนโลยีและความคิดแบบสองทาง ในโลกปัจจุบันที่การเชื่อมโยงโมดูลมีความแข็งแกร่งอย่างยิ่ง การกระจายคุณลักษณะไม่เสถียรอย่างยิ่ง และความต้องการพลังการประมวลผลมีความเข้มข้นมากขึ้น การสร้างโมดูลแบบหลายโหมดไม่สามารถอยู่ใน Web3 ได้เลย สิ่งที่เราต้องการชี้ให้เห็นก็คืออนาคตของ Web3 AI ไม่ใช่การเลียนแบบ แต่เป็นทางอ้อมเชิงกลยุทธ์ ตั้งแต่การจัดแนวความหมายในพื้นที่มิติสูง ไปจนถึงคอขวดข้อมูลในกลไกการให้ความสนใจ ไปจนถึงการจัดแนวคุณลักษณะภายใต้พลังการประมวลผลที่ไม่เป็นเนื้อเดียวกัน ฉันจะอธิบายว่าทำไม Web3 AI จึงควรใช้พื้นที่ชนบทเป็นโปรแกรมเชิงกลยุทธ์

Web3 AI มีพื้นฐานมาจากโมเดลมัลติโหมดแบบแบน และไม่สามารถจัดแนวความหมายได้ ส่งผลให้ประสิทธิภาพลดลง

ในระบบมัลติโมดัลของ Web2 AI สมัยใหม่ "การจัดตำแหน่งความหมาย" หมายถึงการแมปข้อมูลจากโมดัลต่างๆ (เช่น รูปภาพ ข้อความ เสียง วิดีโอ ฯลฯ) ลงในพื้นที่ความหมายเดียวกันหรือที่แปลงกันได้ซึ่งกันและกัน เพื่อให้โมเดลสามารถเข้าใจและเปรียบเทียบความหมายโดยธรรมชาติเบื้องหลังสัญญาณที่แตกต่างกันแต่เดิมเหล่านี้ได้ ตัวอย่างเช่น ภาพถ่ายของแมวและประโยค "แมวน่ารัก" โมเดลจำเป็นต้องฉายภาพทั้งสองไปยังตำแหน่งที่อยู่ใกล้กันในพื้นที่ฝังตัวที่มีมิติสูง เพื่อให้ "สามารถเห็นภาพและพูด" และ "ได้ยินเสียงและเชื่อมโยงภาพ" เมื่อเรียกค้น สร้าง หรือคิดเหตุผล

เวิร์กโฟลว์สามารถแบ่งออกเป็นโมดูลต่างๆ เพื่อลดต้นทุนและเพิ่มประสิทธิภาพได้ก็ต่อเมื่อมีพื้นที่ฝังตัวที่มีมิติสูงเท่านั้น อย่างไรก็ตาม ในโปรโตคอล Web3 Agent ไม่สามารถทำการฝังตัวที่มีมิติสูงได้ เนื่องจากความเป็นโมดูลาร์เป็นภาพลวงตาของ Web3 AI

จะเข้าใจพื้นที่ฝังตัวมิติสูงได้อย่างไร? ในระดับที่เข้าใจง่ายที่สุด ลองนึกภาพ "พื้นที่ฝังตัวมิติสูง" เป็นระบบพิกัด เช่นเดียวกับพิกัด x-y บนระนาบ คุณสามารถใช้ตัวเลขคู่หนึ่งเพื่อระบุตำแหน่งจุดได้ เพียงแต่ในระนาบสองมิติทั่วไปของเรา จุดจะถูกกำหนดโดยตัวเลขสองตัว (x, y) อย่างสมบูรณ์ ในพื้นที่ "มิติสูง" แต่ละจุดจะถูกอธิบายด้วยตัวเลขเพิ่มเติม ซึ่งอาจเป็น 128 512 หรือแม้แต่หลายพันตัวเลขก็ได้

จากสิ่งที่ง่ายที่สุดไปจนถึงสิ่งที่ซับซ้อนที่สุด ทำความเข้าใจในสามขั้นตอน:

ตัวอย่าง 2D:
ลองนึกภาพว่าคุณได้ทำเครื่องหมายพิกัดของเมืองต่างๆ ไว้บนแผนที่ เช่น ปักกิ่ง (116.4, 39.9), เซี่ยงไฮ้ (121.5, 31.2) และกว่างโจว (113.3, 23.1) เมืองแต่ละเมืองในที่นี้สอดคล้องกับ "เวกเตอร์ฝังสองมิติ": พิกัดสองมิติเข้ารหัสข้อมูลตำแหน่งทางภูมิศาสตร์เป็นตัวเลข
หากคุณต้องการวัด "ความคล้ายคลึงกัน" ระหว่างเมืองต่างๆ เมืองที่อยู่ใกล้กันบนแผนที่มักจะอยู่ในเขตเศรษฐกิจหรือภูมิอากาศเดียวกัน คุณก็สามารถเปรียบเทียบระยะทางแบบยูคลิดระหว่างพิกัดของทั้ง 2 เมืองได้
การขยายไปยังมิติหลายมิติ:
ตอนนี้สมมติว่าคุณต้องการอธิบายไม่เพียงแค่ตำแหน่งใน "พื้นที่ทางภูมิศาสตร์" เท่านั้น แต่ยังรวมถึง "ลักษณะภูมิอากาศ" บางอย่าง (อุณหภูมิเฉลี่ย ปริมาณน้ำฝน) "ลักษณะประชากร" (ความหนาแน่นของประชากร GDP) ฯลฯ ด้วย คุณสามารถกำหนดเวกเตอร์ที่มีมิติ 5, 10 หรือแม้แต่มากกว่านี้ให้กับแต่ละเมืองได้
ตัวอย่างเช่น เวกเตอร์ 5 มิติของกวางโจวอาจเป็น [113.3, 23.1, 24.5, 1700, 14.5] ซึ่งแสดงค่าลองจิจูด ละติจูด อุณหภูมิเฉลี่ย ปริมาณน้ำฝนรายปี (มม.) และดัชนีเศรษฐกิจตามลำดับ “พื้นที่หลายมิติ” นี้ช่วยให้คุณเปรียบเทียบเมืองต่างๆ ตามภูมิศาสตร์ ภูมิอากาศ เศรษฐกิจ และมิติอื่นๆ ได้ในเวลาเดียวกัน หากเวกเตอร์ของสองเมืองอยู่ใกล้กันมาก แสดงว่าทั้งสองเมืองมีคุณลักษณะที่คล้ายกันมาก
การเปลี่ยนไปใช้ความหมาย - เหตุใดจึง "ฝัง":
ในการประมวลผลภาษาธรรมชาติ (NLP) หรือการมองเห็นด้วยคอมพิวเตอร์ เราหวังว่าจะสามารถแมป "คำ" "ประโยค" หรือ "ภาพ" ลงในเวกเตอร์หลายมิติได้เช่นกัน เพื่อให้ "ความหมายที่คล้ายคลึงกัน" ของคำหรือภาพนั้นอยู่ใกล้กันมากขึ้นในอวกาศ กระบวนการแมปนี้เรียกว่า "การฝัง"
ตัวอย่างเช่น เราฝึกโมเดลให้แมป "แมว" กับเวกเตอร์ v₁ 300 มิติ "สุนัข" กับเวกเตอร์ v₂ อีกตัวหนึ่ง และแมปคำที่ "ไม่เกี่ยวข้อง" เช่น "เศรษฐกิจ" กับ v₃ จากนั้นในพื้นที่ 300 มิติ ระยะห่างระหว่าง v₁ และ v₂ จะมีขนาดเล็ก (เนื่องจากทั้งสองเป็นสัตว์และมักปรากฏในสภาพแวดล้อมทางภาษาที่คล้ายกัน) ในขณะที่ระยะห่างระหว่าง v₁ และ v₃ จะมีขนาดใหญ่
เนื่องจากโมเดลได้รับการฝึกอบรมจากข้อความหรือคู่ข้อความภาพจำนวนมาก มิติแต่ละมิติที่โมเดลเรียนรู้จึงไม่สอดคล้องโดยตรงกับแอตทริบิวต์ที่สามารถตีความได้ เช่น "ลองจิจูด" และ "ละติจูด" แต่จะสอดคล้องกับ "คุณลักษณะทางความหมายโดยนัย" บางอย่าง มิติบางอย่างอาจจับการแบ่งแบบหยาบๆ ของ "สัตว์กับสิ่งที่ไม่ใช่สัตว์" บางมิติอาจแยกแยะระหว่าง "บ้านกับป่า" และบางมิติอาจสอดคล้องกับความรู้สึกว่า "น่ารักกับทรงพลัง"... กล่าวโดยสรุป มิติหลายร้อยหรือหลายพันมิติทำงานร่วมกันเพื่อเข้ารหัสระดับความหมายที่ซับซ้อนและเชื่อมโยงกันทุกประเภท

ความแตกต่างระหว่างมิติสูงและมิติต่ำคืออะไร มีเพียงมิติที่เพียงพอเท่านั้นที่เราจะรองรับคุณลักษณะทางความหมายที่เชื่อมโยงกันหลากหลาย และมีเพียงมิติสูงเท่านั้นที่จะทำให้คุณลักษณะเหล่านี้มีตำแหน่งที่ชัดเจนขึ้นในมิติทางความหมายที่เกี่ยวข้อง เมื่อไม่สามารถแยกแยะความหมายได้ นั่นคือ เมื่อไม่สามารถจัดตำแหน่งความหมายได้ สัญญาณต่างๆ ในพื้นที่มิติต่ำจะ "บีบ" ซึ่งกันและกัน ทำให้แบบจำลองเกิดความสับสนบ่อยครั้งเมื่อค้นหาหรือจำแนก และอัตราความแม่นยำจะลดลงอย่างมาก ประการที่สอง เป็นการยากที่จะจับความแตกต่างที่ละเอียดอ่อนในขั้นตอนการสร้างกลยุทธ์ และเป็นเรื่องง่ายที่จะพลาดสัญญาณการซื้อขายที่สำคัญหรือประเมินเกณฑ์ความเสี่ยงผิดพลาด ซึ่งทำให้ประสิทธิภาพของผลตอบแทนลดลงโดยตรง ประการที่สาม การทำงานร่วมกันระหว่างโมดูลเป็นไปไม่ได้ ตัวแทนแต่ละตัวดำเนินการอย่างอิสระ และปรากฏการณ์เกาะข้อมูลก็ร้ายแรง ความล่าช้าในการตอบสนองโดยรวมเพิ่มขึ้น และความทนทานก็ลดลง ในที่สุด เมื่อเผชิญกับสถานการณ์ตลาดที่ซับซ้อน โครงสร้างมิติต่ำแทบไม่มีศักยภาพในการรองรับข้อมูลจากหลายแหล่ง และยากที่จะรับประกันความเสถียรและความสามารถในการปรับขนาดของระบบ การดำเนินงานในระยะยาวมักจะประสบปัญหาด้านประสิทธิภาพและความยากลำบากในการบำรุงรักษา ส่งผลให้ประสิทธิภาพของผลิตภัณฑ์อยู่ไกลจากที่คาดหวังไว้เริ่มแรกหลังจากลงจอด

ดังนั้น Web3 AI หรือโปรโตคอลเอเจนต์จึงสามารถบรรลุพื้นที่ฝังตัวมิติสูงได้หรือไม่ ก่อนอื่นเลย พื้นที่มิติสูงบรรลุได้อย่างไร ในความหมายดั้งเดิม "มิติสูง" ต้องการให้ระบบย่อยแต่ละระบบ เช่น ข่าวกรองทางการตลาด การสร้างกลยุทธ์ การดำเนินการและการใช้งาน และการควบคุมความเสี่ยง สอดคล้องกันและเสริมซึ่งกันและกันในการนำเสนอข้อมูลและกระบวนการตัดสินใจ อย่างไรก็ตาม เอเจนต์ Web3 ส่วนใหญ่เพียงแค่ห่อหุ้ม API ที่มีอยู่ (CoinGecko, อินเทอร์เฟซ DEX เป็นต้น) ให้เป็น "เอเจนต์" อิสระ ขาดพื้นที่ฝังตัวส่วนกลางที่เป็นหนึ่งเดียวและกลไกการให้ความสนใจข้ามโมดูล ส่งผลให้ข้อมูลไม่สามารถโต้ตอบระหว่างโมดูลจากหลายมุมและหลายระดับได้ ทำได้เพียงตามไปป์ไลน์เชิงเส้นที่แสดงฟังก์ชันเดียวเท่านั้น และไม่สามารถสร้างการเพิ่มประสิทธิภาพแบบวงปิดโดยรวมได้

ตัวแทนจำนวนมากเรียกใช้อินเทอร์เฟซภายนอกโดยตรงและไม่ปรับแต่งหรือออกแบบคุณลักษณะของข้อมูลที่ส่งกลับมาโดยอินเทอร์เฟซมากพอ ตัวอย่างเช่น ตัวแทนวิเคราะห์ตลาดเพียงแค่รับราคาและปริมาณ ตัวแทนดำเนินการธุรกรรมเพียงวางคำสั่งตามพารามิเตอร์อินเทอร์เฟซ และตัวแทนควบคุมความเสี่ยงเพียงแจ้งเตือนตามเกณฑ์ต่างๆ ตัวแทนแต่ละรายทำหน้าที่ของตนเอง แต่ขาดการผสานรวมหลายโหมดและความเข้าใจเชิงความหมายเชิงลึกของเหตุการณ์ความเสี่ยงเดียวกันหรือสัญญาณตลาด ส่งผลให้ระบบไม่สามารถสร้างกลยุทธ์ที่ครอบคลุมและหลากหลายได้อย่างรวดเร็วเมื่อเผชิญกับสภาวะตลาดที่รุนแรงหรือโอกาสข้ามสินทรัพย์

ดังนั้น การกำหนดให้ Web3 AI บรรลุพื้นที่มิติสูงนั้นเทียบเท่ากับการกำหนดให้โปรโตคอลตัวแทนพัฒนาอินเทอร์เฟซ API ทั้งหมดที่เกี่ยวข้องด้วยตัวเอง ซึ่งขัดต่อเจตนาเดิมของการสร้างโมดูล ระบบมัลติโหมดโมดูลาร์ที่อธิบายโดยวิสาหกิจขนาดกลางและขนาดย่อมใน Web3 AI ไม่สามารถทนต่อการตรวจสอบได้ สถาปัตยกรรมมิติสูงต้องการการฝึกอบรมแบบครบวงจรหรือการเพิ่มประสิทธิภาพร่วมกัน: ตั้งแต่การจับสัญญาณไปจนถึงการคำนวณกลยุทธ์ การดำเนินการ และการควบคุมความเสี่ยง ลิงก์ทั้งหมดใช้ชุดการแสดงและฟังก์ชันการสูญเสียเดียวกัน แนวคิด "โมดูลเป็นปลั๊กอิน" ของ Web3 Agent ทำให้เกิดการแยกส่วนที่รุนแรงขึ้น การอัปเกรด การปรับใช้ และการปรับพารามิเตอร์ของตัวแทนแต่ละรายการจะเสร็จสมบูรณ์ในไซโลของตัวเอง ซึ่งยากต่อการทำซ้ำแบบซิงโครนัส และไม่มีกลไกการตรวจสอบและข้อเสนอแนะแบบรวมศูนย์ที่มีประสิทธิภาพ ส่งผลให้ต้นทุนการบำรุงรักษาพุ่งสูงขึ้นและประสิทธิภาพโดยรวมจำกัด

ในการสร้างตัวแทนอัจฉริยะแบบลิงค์เต็มรูปแบบที่มีข้อจำกัดในอุตสาหกรรม จำเป็นต้องฝ่าฟันวิศวกรรมระบบของการสร้างแบบจำลองข้อต่อแบบครบวงจร การฝังแบบรวมศูนย์ระหว่างโมดูลต่างๆ และการฝึกอบรมและการปรับใช้ร่วมกัน อย่างไรก็ตาม ไม่มีจุดเจ็บปวดดังกล่าวในตลาดปัจจุบัน และแน่นอนว่าไม่มีความต้องการในตลาด

ในพื้นที่มิติต่ำ กลไกการเอาใจใส่ไม่สามารถออกแบบได้อย่างแม่นยำ

โมเดลมัลติโหมดระดับสูงต้องการกลไกการใส่ใจที่ซับซ้อน กลไกการใส่ใจเป็นวิธีการจัดสรรทรัพยากรคอมพิวเตอร์แบบไดนามิกโดยพื้นฐาน ช่วยให้โมเดลสามารถ "โฟกัส" ไปที่ส่วนที่เกี่ยวข้องที่สุดอย่างเลือกสรรเมื่อประมวลผลอินพุตโหมดใดโหมดหนึ่ง กลไกการใส่ใจแบบ self-attention และ cross-attention ใน Transformer เป็นกลไกที่พบได้บ่อยที่สุด โดยกลไก self-attention ช่วยให้โมเดลสามารถวัดความสัมพันธ์ระหว่างแต่ละองค์ประกอบในลำดับ เช่น ความสำคัญของแต่ละคำในข้อความกับคำอื่นๆ ส่วนกลไก cross-attention ช่วยให้ข้อมูลจากโหมดหนึ่ง (เช่น ข้อความ) ตัดสินใจว่าจะ "ดู" คุณลักษณะของภาพใดเมื่อถอดรหัสหรือสร้างโหมดอื่น (เช่น ลำดับคุณลักษณะของภาพ) ด้วยกลไกการใส่ใจแบบหลายหัว โมเดลสามารถเรียนรู้การจัดตำแหน่งหลายตำแหน่งในพื้นที่ย่อยต่างๆ พร้อมกันเพื่อจับภาพความสัมพันธ์ที่ซับซ้อนและละเอียดมากขึ้น

หลักการพื้นฐานสำหรับกลไกการให้ความสนใจในการทำงานก็คือ มัลติโมดัลมีมิติสูง ในพื้นที่ที่มีมิติสูง กลไกการให้ความสนใจที่ซับซ้อนสามารถค้นหาส่วนแกนหลักที่สุดจากพื้นที่ที่มีมิติสูงขนาดใหญ่ได้ในเวลาอันสั้นที่สุด ก่อนที่จะอธิบายว่าเหตุใดจึงต้องวางกลไกการให้ความสนใจในพื้นที่ที่มีมิติสูงเพื่อให้ทำงานได้ เรามาทำความเข้าใจกระบวนการของ Web2 AI ที่แสดงโดยตัวถอดรหัส Transformer ก่อนเมื่อออกแบบกลไกการให้ความสนใจ แนวคิดหลักคือ เมื่อประมวลผลลำดับ (ข้อความ แพตช์ภาพ เฟรมเสียง) โมเดลจะกำหนด "น้ำหนักความสนใจ" ให้กับแต่ละองค์ประกอบแบบไดนามิก ช่วยให้โมเดลสามารถโฟกัสที่ข้อมูลที่เกี่ยวข้องมากที่สุดได้แทนที่จะปฏิบัติต่อข้อมูลเหล่านี้อย่างเท่าเทียมกันโดยไม่ไตร่ตรอง

หากเปรียบเทียบกลไกการให้ความสนใจกับรถยนต์ การออกแบบ Query-Key-Value ก็เหมือนกับการออกแบบเครื่องยนต์ QKV เป็นกลไกที่ช่วยให้เราพิจารณาข้อมูลสำคัญ Query หมายถึง query ("ฉันกำลังมองหาอะไร") Key หมายถึง index ("ฉันมีแท็กอะไร") และ Value หมายถึง content ("เนื้อหาอะไรอยู่ที่นี่") สำหรับโมเดลมัลติโมดัล เนื้อหาที่คุณป้อนเข้าไปในโมเดลอาจเป็นประโยค รูปภาพ หรือคลิปเสียง เพื่อรับเนื้อหาที่เราต้องการในพื้นที่มิติ อินพุตเหล่านี้จะถูกตัดเป็นหน่วยที่เล็กที่สุด เช่น อักขระ บล็อกขนาดเล็กที่มีขนาดพิกเซลหนึ่งๆ หรือเฟรมเสียง โมเดลมัลติโมดัลจะสร้าง Query, Key และ Value สำหรับหน่วยที่เล็กที่สุดเหล่านี้เพื่อดำเนินการคำนวณความสนใจ เมื่อโมเดลประมวลผลตำแหน่งใดตำแหน่งหนึ่ง โมเดลจะใช้ Query ในตำแหน่งนี้เพื่อเปรียบเทียบ Key ของตำแหน่งทั้งหมดเพื่อพิจารณาว่าแท็กใดตรงกับความต้องการปัจจุบันมากที่สุด จากนั้น ค่าจะถูกแยกออกมาจากตำแหน่งที่เกี่ยวข้องตามระดับความตรงกัน และถ่วงน้ำหนักตามความสำคัญ ในที่สุด การแสดงผลแบบใหม่ซึ่งประกอบด้วยทั้งข้อมูลของตัวเองและเนื้อหาที่เกี่ยวข้องทั่วโลกก็ได้รับการแสดง ด้วยวิธีนี้ เอาต์พุตแต่ละรายการสามารถ "ถามคำถาม-ดึงข้อมูล-รวมข้อมูล" แบบไดนามิกตามบริบท เพื่อให้ได้โฟกัสข้อมูลที่มีประสิทธิภาพและแม่นยำ

บนพื้นฐานของเครื่องยนต์นี้ ชิ้นส่วนต่างๆ จะถูกเพิ่มเข้าไปเพื่อผสมผสาน "ปฏิสัมพันธ์ทั่วโลก" กับ "ความซับซ้อนที่ควบคุมได้" อย่างชาญฉลาด: การปรับขนาดผลิตภัณฑ์จุดเพื่อให้แน่ใจว่ามีเสถียรภาพเชิงตัวเลข การประมวลผลแบบขนานหลายหัวเพื่อเพิ่มการแสดงออก การเข้ารหัสตำแหน่งเพื่อรักษาลำดับของลำดับ ตัวแปรที่เบาบางเพื่อรักษาสมดุลของประสิทธิภาพ ค่าคงเหลือและการทำให้เป็นมาตรฐานเพื่อช่วยรักษาเสถียรภาพของการฝึกอบรม และการใส่ใจแบบไขว้เพื่อเปิดการใช้งานหลายโหมด การออกแบบแบบแยกส่วนและก้าวหน้าเหล่านี้ทำให้ Web2 AI มีทั้งความสามารถในการเรียนรู้ที่ทรงพลังและการทำงานที่มีประสิทธิภาพภายในช่วงพลังการประมวลผลที่เอื้อมถึงได้เมื่อประมวลผลงานลำดับและโหมดต่างๆ

เหตุใด AI แบบโมดูลาร์ Web3 จึงไม่สามารถกำหนดตารางเวลาการให้ความสนใจแบบรวมศูนย์ได้ ประการแรก กลไกการให้ความสนใจนั้นอาศัยพื้นที่ Query-Key-Value แบบรวมศูนย์ คุณลักษณะอินพุตทั้งหมดจะต้องถูกแมปไปยังพื้นที่เวกเตอร์มิติสูงเดียวกันเพื่อคำนวณน้ำหนักแบบไดนามิกผ่านผลิตภัณฑ์จุด API อิสระส่งคืนข้อมูลในรูปแบบและการแจกแจงที่แตกต่างกัน เช่น ราคา สถานะการสั่งซื้อ สัญญาณเตือนขีดจำกัด โดยไม่มีเลเยอร์การฝังแบบรวมศูนย์ และไม่สามารถสร้างชุดของ Q/K/V แบบโต้ตอบได้ ประการที่สอง การให้ความสนใจแบบหลายหัวช่วยให้สามารถให้ความสนใจแหล่งข้อมูลที่แตกต่างกันได้แบบขนานกันในเลเยอร์เดียวกัน จากนั้นจึงรวบรวมผลลัพธ์ ในขณะที่ API อิสระมักจะ "เรียก A ก่อน จากนั้นเรียก B แล้วจึงเรียก C" และเอาต์พุตของแต่ละขั้นตอนเป็นเพียงอินพุตของโมดูลถัดไปเท่านั้น ขาดความสามารถในการกำหนดน้ำหนักแบบไดนามิกแบบขนานและหลายทาง และแน่นอนว่าไม่สามารถจำลองการกำหนดตารางเวลาแบบละเอียดของกลไกการให้ความสนใจที่ให้คะแนนตำแหน่งทั้งหมดหรือโหมดทั้งหมดในเวลาเดียวกันแล้วจึงรวมเข้าด้วยกัน ในที่สุด กลไกการใส่ใจที่แท้จริงจะกำหนดน้ำหนักให้กับแต่ละองค์ประกอบอย่างไดนามิกตามบริบทโดยรวม ในโหมด API โมดูลจะสามารถเห็นบริบท "อิสระ" เท่านั้นเมื่อมีการเรียกใช้ และไม่มีบริบทส่วนกลางที่แชร์กันแบบเรียลไทม์ระหว่างกัน ดังนั้นจึงไม่สามารถบรรลุการเชื่อมโยงระดับโลกและโฟกัสระหว่างโมดูลต่างๆ ได้

ดังนั้น จึงเป็นไปไม่ได้เลยที่จะสร้างความสามารถในการ "กำหนดตารางเวลาความสนใจแบบรวม" เช่น Transformer โดยการเพียงแค่รวมฟังก์ชันต่างๆ ไว้ใน API ที่แยกจากกันโดยไม่มีการแสดงเวกเตอร์ทั่วไป การถ่วงน้ำหนักแบบขนาน และการรวมเข้าด้วยกัน เช่นเดียวกับรถยนต์ที่มีสมรรถนะของเครื่องยนต์ต่ำไม่สามารถปรับปรุงขีดจำกัดบนได้ ไม่ว่าจะดัดแปลงอย่างไรก็ตาม

การเย็บแบบโมดูลาร์แบบแยกส่วนส่งผลให้คุณสมบัติผสานกันเหลืออยู่ที่ระดับการต่อแบบคงที่ผิวเผิน

"การรวมคุณลักษณะ" คือการรวมเวกเตอร์คุณลักษณะที่ได้หลังจากประมวลผลโหมดต่างๆ ตามการจัดตำแหน่งและการใส่ใจ เพื่อให้สามารถใช้เวกเตอร์คุณลักษณะเหล่านี้ได้โดยตรงในงานปลายทาง (การจำแนก การดึงข้อมูล การสร้าง ฯลฯ) วิธีการรวมอาจง่ายเท่ากับการต่อและการหาผลรวมแบบถ่วงน้ำหนัก หรือซับซ้อนเท่ากับการรวมกลุ่มแบบบิลิเนียร์ การแยกเทนเซอร์ หรือแม้แต่เทคโนโลยีการกำหนดเส้นทางแบบไดนามิก วิธีการลำดับสูงกว่าคือการสลับการจัดตำแหน่ง การใส่ใจ และการรวมกันในเครือข่ายหลายชั้น หรือเพื่อสร้างเส้นทางการส่งข้อความที่ยืดหยุ่นมากขึ้นระหว่างคุณลักษณะแบบข้ามโหมดผ่านเครือข่ายประสาทเทียมแบบกราฟ (GNN) เพื่อให้ได้การโต้ตอบข้อมูลเชิงลึก

ไม่ต้องบอกก็รู้ว่า Web3 AI ยังคงอยู่ในขั้นตอนการต่อเชื่อมที่ง่ายที่สุด เนื่องจากหลักการของการรวมคุณสมบัติแบบไดนามิกคือพื้นที่ที่มีมิติสูงและกลไกการเอาใจใส่ที่แม่นยำ หากไม่เป็นไปตามข้อกำหนดเบื้องต้น การรวมคุณสมบัติในขั้นตอนสุดท้ายจะไม่สามารถบรรลุประสิทธิภาพที่ยอดเยี่ยมได้

Web2 AI มีแนวโน้มที่จะใช้การฝึกร่วมกันแบบครบวงจร โดยจะประมวลผลคุณลักษณะโหมดทั้งหมด เช่น รูปภาพ ข้อความ และเสียงพร้อมกันในพื้นที่มิติสูงเดียวกัน และปรับให้เหมาะสมโดยร่วมมือกับเลเยอร์งานปลายทางผ่านเลเยอร์ความสนใจและเลเยอร์ฟิวชัน โมเดลจะเรียนรู้ค่าฟิวชันที่เหมาะสมที่สุดและวิธีการโต้ตอบโดยอัตโนมัติในการแพร่กระจายไปข้างหน้าและข้างหลัง ในทางกลับกัน Web3 AI ใช้แนวทางการต่อโมดูลแบบแยกส่วนมากขึ้น โดยห่อหุ้ม API ต่างๆ เช่น การจดจำภาพ การรวบรวมตลาด และการประเมินความเสี่ยงไว้ในตัวแทนอิสระ จากนั้นจึงรวบรวมป้ายกำกับ ค่า หรือสัญญาณเตือนขีดจำกัดที่ส่งออกโดยตัวแทนแต่ละตัวเข้าด้วยกัน การตัดสินใจที่ครอบคลุมจะทำโดยตรรกะของสายหลักหรือแรงงานคน แนวทางนี้ขาดเป้าหมายการฝึกที่เป็นหนึ่งเดียวและการไหลแบบไล่ระดับระหว่างโมดูล

ใน Web2 AI ระบบจะอาศัยกลไกการให้ความสนใจเพื่อคำนวณคะแนนความสำคัญของฟีเจอร์ต่างๆ แบบเรียลไทม์ตามบริบทและปรับกลยุทธ์การผสานแบบไดนามิก นอกจากนี้ การให้ความสนใจแบบหลายหัวยังสามารถจับโหมดการโต้ตอบฟีเจอร์ต่างๆ ได้หลายโหมดพร้อมกันในระดับเดียวกัน จึงคำนึงถึงรายละเอียดในพื้นที่และความหมายทั่วโลก Web3 AI มักจะกำหนดน้ำหนัก เช่น "รูปภาพ × 0.5 + ข้อความ × 0.3 + ราคา × 0.2" ไว้ล่วงหน้า หรือใช้กฎ if/else ง่ายๆ เพื่อพิจารณาว่าจะผสานรวมหรือไม่ผสานเลย โดยนำเสนอเฉพาะผลลัพธ์ของแต่ละโมดูลพร้อมกัน ซึ่งขาดความยืดหยุ่น

Web2 AI ทำการแมปคุณลักษณะโหมดทั้งหมดไปยังพื้นที่มิติสูงที่มีมิติหลายพันมิติ กระบวนการฟิวชันไม่ได้เป็นเพียงการเรียงต่อเวกเตอร์เท่านั้น แต่ยังรวมถึงการดำเนินการโต้ตอบลำดับสูงหลายอย่าง เช่น การบวกและการรวมกลุ่มแบบบิลิเนียร์ มิติแต่ละมิติอาจสอดคล้องกับความหมายที่มีศักยภาพบางอย่าง ทำให้โมเดลสามารถจับภาพความสัมพันธ์แบบข้ามโหมดที่ลึกซึ้งและซับซ้อนได้ ในทางตรงกันข้าม ผลลัพธ์ของตัวแทนแต่ละตัวของ Web3 AI มักจะมีฟิลด์หรือตัวบ่งชี้สำคัญเพียงไม่กี่รายการเท่านั้น โดยมีมิติคุณลักษณะที่ต่ำมาก และแทบจะเป็นไปไม่ได้เลยที่จะแสดงข้อมูลที่ละเอียดอ่อน เช่น "เหตุใดเนื้อหาของภาพจึงตรงกับความหมายของข้อความ" หรือ "ความเชื่อมโยงที่ละเอียดอ่อนระหว่างความผันผวนของราคาและแนวโน้มทางอารมณ์"

ใน Web2 AI การสูญเสียงานปลายน้ำจะถูกส่งกลับไปยังส่วนต่างๆ ของโมเดลอย่างต่อเนื่องผ่านเลเยอร์ความสนใจและเลเยอร์ฟิวชัน โดยจะปรับคุณลักษณะที่ควรเสริมความแข็งแกร่งหรือระงับโดยอัตโนมัติ ซึ่งก่อให้เกิดการเพิ่มประสิทธิภาพแบบวงปิด ในทางตรงกันข้าม Web3 AI จะต้องอาศัยกระบวนการด้วยตนเองหรือจากภายนอกเพื่อประเมินและปรับพารามิเตอร์หลังจากรายงานผลการเรียกใช้ API การขาดการตอบรับอัตโนมัติแบบครบวงจรทำให้ยากต่อการทำซ้ำและเพิ่มประสิทธิภาพกลยุทธ์ฟิวชันออนไลน์

อุปสรรคต่ออุตสาหกรรม AI มีมากขึ้น แต่ปัญหาต่างๆ ยังไม่ปรากฏ

เนื่องจากจำเป็นต้องคำนึงถึงการจัดตำแหน่งแบบครอสโหมด การคำนวณความสนใจที่แม่นยำ และการรวมคุณลักษณะที่มีมิติสูงในการฝึกอบรมแบบครบวงจร ระบบมัลติโหมดของ Web2 AI จึงมักเป็นโครงการวิศวกรรมขนาดใหญ่มาก ไม่เพียงแต่ต้องใช้ชุดข้อมูลครอสโหมดจำนวนมาก หลากหลาย และมีคำอธิบายประกอบอย่างแม่นยำ แต่ยังต้องใช้ GPU หลายพันตัวสำหรับเวลาฝึกอบรมหลายสัปดาห์หรือหลายเดือน ในแง่ของสถาปัตยกรรมโมเดล จะผสานรวมแนวคิดการออกแบบเครือข่ายล่าสุดและเทคโนโลยีการเพิ่มประสิทธิภาพต่างๆ ในแง่ของการนำไปใช้ทางวิศวกรรม ยังจำเป็นต้องสร้างแพลตฟอร์มการฝึกอบรมแบบกระจายที่ปรับขนาดได้ ระบบตรวจสอบ การจัดการเวอร์ชันโมเดล และไปป์ไลน์การปรับใช้ ในการพัฒนาอัลกอริทึม จำเป็นต้องศึกษาตัวแปรความสนใจที่มีประสิทธิภาพมากขึ้น การสูญเสียการจัดตำแหน่งที่แข็งแกร่งยิ่งขึ้น และกลยุทธ์การรวมที่เบากว่าอย่างต่อเนื่อง งานระบบแบบฟูลลิงก์และฟูลสแต็กดังกล่าวมีความต้องการเงินทุน ข้อมูล พลังการประมวลผล บุคลากร และแม้แต่ความร่วมมือขององค์กรสูงมาก ดังนั้นจึงถือเป็นอุปสรรคที่แข็งแกร่งมากในอุตสาหกรรม และยังสร้างความสามารถในการแข่งขันหลักที่ทีมชั้นนำไม่กี่ทีมเชี่ยวชาญมาจนถึงตอนนี้

ในเดือนเมษายน เมื่อฉันได้ตรวจสอบแอปพลิเคชัน AI ของจีนและเปรียบเทียบกับ AI WEB3 ฉันได้กล่าวถึงประเด็นหนึ่ง: Crypto มีศักยภาพที่จะบรรลุความก้าวหน้าในอุตสาหกรรมที่มีอุปสรรคมากมาย ซึ่งหมายความว่าอุตสาหกรรมบางอย่างมีความเป็นผู้ใหญ่มากแล้วในตลาดดั้งเดิม แต่มีจุดเจ็บปวดมากมาย ความพร้อมสูงหมายความว่ามีผู้ใช้ที่คุ้นเคยกับรูปแบบธุรกิจที่คล้ายกันเพียงพอ และจุดเจ็บปวดมากมายหมายความว่าผู้ใช้เต็มใจที่จะลองโซลูชันใหม่ นั่นคือพวกเขามีความเต็มใจอย่างยิ่งที่จะยอมรับ Crypto ทั้งสองอย่างมีความจำเป็น กล่าวอีกนัยหนึ่ง หากไม่ใช่อุตสาหกรรมที่มีความเป็นผู้ใหญ่มากแล้วในตลาดดั้งเดิม แต่มีจุดเจ็บปวดมากมาย Crypto จะไม่สามารถหยั่งรากได้และจะไม่มีพื้นที่สำหรับอยู่อาศัย ผู้ใช้ลังเลมากที่จะเข้าใจอย่างถ่องแท้และไม่เข้าใจขีดจำกัดสูงสุดของศักยภาพของมัน

WEB3 AI หรือผลิตภัณฑ์ Crypto ใดๆ ภายใต้แบนเนอร์ของ PMF จำเป็นต้องพัฒนาโดยใช้กลวิธีในการล้อมรอบเมืองจากชนบท ควรทดสอบน้ำในระดับเล็กในตำแหน่งขอบเพื่อให้แน่ใจว่ามีรากฐานที่มั่นคงก่อนที่จะรอการเกิดขึ้นของสถานการณ์หลัก นั่นคือเมืองเป้าหมาย หัวใจหลักของ Web3 AI อยู่ที่การกระจายอำนาจ และเส้นทางวิวัฒนาการของมันสะท้อนให้เห็นในการประมวลผลแบบคู่ขนานสูง การเชื่อมโยงต่ำ และความเข้ากันได้ของพลังการประมวลผลที่ไม่เป็นเนื้อเดียวกัน ** สิ่งนี้ทำให้ Web3 AI มีข้อได้เปรียบมากขึ้นในสถานการณ์ต่างๆ เช่น การประมวลผลแบบขอบ และเหมาะสำหรับโครงสร้างน้ำหนักเบา การประมวลผลแบบคู่ขนานที่ง่ายดาย และงานที่มีแรงจูงใจ เช่น การปรับแต่ง LoRA งานหลังการฝึกอบรมการปรับแนวพฤติกรรม การฝึกอบรมและคำอธิบายประกอบข้อมูลแบบ crowdsource การฝึกอบรมโมเดลพื้นฐานขนาดเล็ก และการฝึกอบรมการทำงานร่วมกันของอุปกรณ์ขอบ สถาปัตยกรรมผลิตภัณฑ์ของสถานการณ์เหล่านี้มีน้ำหนักเบาและแผนงานสามารถทำซ้ำได้อย่างยืดหยุ่น แต่สิ่งนี้ไม่ได้หมายความว่าเป็นโอกาสในขณะนี้ เนื่องจากอุปสรรคของ WEB2 AI เพิ่งเริ่มก่อตัวขึ้น การเกิดขึ้นของ Deepseek ได้กระตุ้นให้เกิดความก้าวหน้าของ AI ที่ทำงานแบบมัลติโหมดที่ซับซ้อน นี่คือการแข่งขันขององค์กรชั้นนำและช่วงเริ่มต้นของการเกิดขึ้นของเงินปันผลของ WEB2 AI ฉันคิดว่าเมื่อเงินปันผลของ WEB2 AI หายไปเท่านั้น ปัญหาที่เหลืออยู่คือโอกาสของ WEB3 AI ที่จะเข้ามาแทรกแซง เช่นเดียวกับการถือกำเนิดของ DeFi ก่อนที่จุดเวลาจะมาถึง ปัญหาที่สร้างขึ้นเองของ WEB3 AI จะยังคงเข้ามาในตลาดต่อไป เราจำเป็นต้องระบุโปรโตคอลอย่างระมัดระวังด้วย "การล้อมรอบเมืองจากชนบท" และไม่ว่าจะแทรกแซงจากขอบหรือไม่ ก่อนอื่นให้ยึดที่มั่นในชนบท (หรือตลาดขนาดเล็ก ฉากขนาดเล็ก) ด้วยความแข็งแกร่งที่อ่อนแอและสถานการณ์การฝังรากตลาดเพียงเล็กน้อย จากนั้นค่อย ๆ สะสมทรัพยากรและประสบการณ์ จะรวมจุดและพื้นผิวและส่งเสริมในลักษณะวงกลมหรือไม่ และสามารถทำซ้ำและอัปเดตผลิตภัณฑ์อย่างต่อเนื่องในสถานการณ์การใช้งานที่มีขนาดเล็กเพียงพอได้หรือไม่ หากทำไม่ได้ ก็ยากที่จะบรรลุมูลค่าตลาด 1 พันล้านดอลลาร์สหรัฐโดยอาศัย PMF บนพื้นฐานนี้ และโครงการดังกล่าวจะไม่อยู่ในรายการข้อกังวลว่าจะสามารถต่อสู้ในสงครามยืดเยื้อได้หรือไม่ และมีความยืดหยุ่นและคล่องตัวหรือไม่ อุปสรรคที่อาจเกิดขึ้นกับ WEB2 AI กำลังเปลี่ยนแปลงไปอย่างมีพลวัต และจุดเจ็บปวดที่อาจเกิดขึ้นก็กำลังพัฒนาเช่นกัน เราต้องใส่ใจว่าโปรโตคอล WEB3 AI จำเป็นต้องมีความยืดหยุ่นเพียงพอหรือไม่ เพื่อปรับให้เข้ากับสถานการณ์ต่างๆ เคลื่อนย้ายระหว่างพื้นที่ชนบทได้อย่างรวดเร็ว และเข้าใกล้เมืองเป้าหมายด้วยความเร็วสูงสุด หากโปรโตคอลนั้นใช้โครงสร้างพื้นฐานมากเกินไปและสถาปัตยกรรมเครือข่ายมีขนาดใหญ่ ก็มีแนวโน้มสูงที่จะถูกกำจัด

เกี่ยวกับ Movemaker

Movemaker เป็นองค์กรชุมชนอย่างเป็นทางการแห่งแรกที่ได้รับอนุญาตจากมูลนิธิ Aptos และริเริ่มร่วมกันโดย Ankaa และ BlockBooster โดยมุ่งเน้นที่การส่งเสริมการก่อสร้างและการพัฒนาระบบนิเวศ Aptos ของจีน ในฐานะตัวแทนอย่างเป็นทางการของ Aptos ในภูมิภาคจีน Movemaker มุ่งมั่นที่จะสร้างระบบนิเวศ Aptos ที่หลากหลาย เปิดกว้าง และเจริญรุ่งเรืองโดยเชื่อมโยงนักพัฒนา ผู้ใช้ ทุน และพันธมิตรทางระบบนิเวศจำนวนมาก

ข้อสงวนสิทธิ์:

บทความ/บล็อกนี้มีไว้เพื่อวัตถุประสงค์ในการให้ข้อมูลเท่านั้น และเป็นเพียงความคิดเห็นส่วนตัวของผู้เขียนเท่านั้น และไม่จำเป็นต้องแสดงถึงตำแหน่งของ Movemaker บทความนี้ไม่มีจุดประสงค์เพื่อให้คำแนะนำด้านการลงทุนหรือคำแนะนำการลงทุน (ii) ข้อเสนอหรือการชักชวนให้ซื้อ ขาย หรือถือสินทรัพย์ดิจิทัล หรือ (iii) คำแนะนำด้านการเงิน การบัญชี กฎหมาย หรือภาษี การถือสินทรัพย์ดิจิทัล รวมถึง stablecoin และ NFT มีความเสี่ยงสูงมากและอาจผันผวนในราคาและไม่มีค่า คุณควรพิจารณาอย่างรอบคอบว่าการซื้อขายหรือการถือสินทรัพย์ดิจิทัลนั้นเหมาะสมกับคุณหรือไม่ โดยพิจารณาจากสถานการณ์ทางการเงินของคุณ หากคุณมีคำถามเกี่ยวกับสถานการณ์เฉพาะของคุณ โปรดปรึกษาที่ปรึกษาด้านกฎหมาย ภาษี หรือการลงทุนของคุณ ข้อมูลที่ให้ไว้ในบทความนี้ (รวมถึงข้อมูลตลาดและข้อมูลสถิติ หากมี) มีไว้เพื่อเป็นข้อมูลทั่วไปเท่านั้น เราได้ใช้ความระมัดระวังอย่างสมเหตุสมผลในการจัดเตรียมข้อมูลและแผนภูมิเหล่านี้ แต่จะไม่รับผิดชอบต่อข้อผิดพลาดเชิงข้อเท็จจริงหรือการละเว้นใดๆ ที่แสดงไว้ในนั้น

ลงทุน

อุตสาหกรรม

Aptos

เทคโนโลยี

ยินดีต้อนรับเข้าร่วมชุมชนทางการของ Odaily