ผู้เขียนต้นฉบับ: IOSG Ventures

การพัฒนาอย่างรวดเร็วของปัญญาประดิษฐ์นั้นขึ้นอยู่กับโครงสร้างพื้นฐานที่ซับซ้อน สแต็กเทคโนโลยี AI เป็นสถาปัตยกรรมแบบเลเยอร์ที่ประกอบด้วยฮาร์ดแวร์และซอฟต์แวร์ที่เป็นแกนหลักของการปฏิวัติ AI ในปัจจุบัน ที่นี่ เราจะให้การวิเคราะห์เชิงลึกของเลเยอร์หลักของกลุ่มเทคโนโลยี และอธิบายการมีส่วนร่วมของแต่ละเลเยอร์ในการพัฒนาและการใช้งาน AI สุดท้ายนี้ เราจะสะท้อนให้เห็นถึงความสำคัญของการเรียนรู้พื้นฐานเหล่านี้ โดยเฉพาะอย่างยิ่งเมื่อประเมินโอกาสที่จุดตัดของสกุลเงินดิจิทัลและ AI เช่น โครงการ DePIN (โครงสร้างพื้นฐานทางกายภาพแบบกระจายอำนาจ) เช่น เครือข่าย GPU
1. ชั้นฮาร์ดแวร์: รองพื้นซิลิโคน
ที่ระดับต่ำสุดคือฮาร์ดแวร์ ซึ่งให้พลังการประมวลผลทางกายภาพสำหรับ AI
CPU (หน่วยประมวลผลกลาง): เป็นโปรเซสเซอร์พื้นฐานสำหรับการคำนวณ พวกเขาเป็นเลิศในการจัดการงานตามลำดับและมีความสำคัญสำหรับการประมวลผลทั่วไป รวมถึงการประมวลผลข้อมูลล่วงหน้า งานปัญญาประดิษฐ์ขนาดเล็ก และการประสานงานส่วนประกอบอื่นๆ
GPU (หน่วยประมวลผลกราฟิก): เดิมทีออกแบบมาสำหรับการเรนเดอร์กราฟิก แต่ได้กลายเป็นส่วนสำคัญของปัญญาประดิษฐ์เนื่องจากความสามารถในการคำนวณง่ายๆ จำนวนมากพร้อมกัน ความสามารถในการประมวลผลแบบขนานนี้ทำให้ GPU เหมาะมากสำหรับการฝึกฝนโมเดลการเรียนรู้เชิงลึก หากไม่มีการพัฒนา GPU โมเดล GPT สมัยใหม่คงเป็นไปไม่ได้
ตัวเร่งความเร็ว AI: ชิปที่ออกแบบมาโดยเฉพาะสำหรับปริมาณงาน AI ที่ได้รับการปรับให้เหมาะสมสำหรับการดำเนินงาน AI ทั่วไป โดยให้ประสิทธิภาพสูงและประหยัดพลังงานสำหรับงานฝึกอบรมและการอนุมาน
FPGA (Programmable Array Logic): ให้ความยืดหยุ่นด้วยลักษณะที่สามารถตั้งโปรแกรมใหม่ได้ สามารถปรับให้เหมาะสมสำหรับงานปัญญาประดิษฐ์เฉพาะโดยเฉพาะในสถานการณ์อนุมานที่จำเป็นต้องมีเวลาแฝงต่ำ

2. ซอฟต์แวร์พื้นฐาน: มิดเดิลแวร์
เลเยอร์นี้ในสแต็กเทคโนโลยี AI มีความสำคัญเนื่องจากสร้างสะพานเชื่อมระหว่างเฟรมเวิร์ก AI ระดับสูงและฮาร์ดแวร์พื้นฐาน เทคโนโลยีเช่น CUDA, ROCm, OneAPI และ SNPE เสริมสร้างการเชื่อมต่อระหว่างเฟรมเวิร์กระดับสูงและสถาปัตยกรรมฮาร์ดแวร์เฉพาะเพื่อให้เกิดประสิทธิภาพสูงสุด
ในฐานะเลเยอร์ซอฟต์แวร์ที่เป็นกรรมสิทธิ์ของ NVIDIA CUDA จึงเป็นรากฐานสำคัญของการเติบโตของบริษัทในตลาดฮาร์ดแวร์ AI ตำแหน่งผู้นำของ NVIDIA ไม่เพียงแต่เนื่องมาจากความได้เปรียบด้านฮาร์ดแวร์เท่านั้น แต่ยังสะท้อนถึงผลกระทบด้านเครือข่ายอันทรงพลังของซอฟต์แวร์และการบูรณาการระบบนิเวศอีกด้วย
เหตุผลที่ CUDA มีผลกระทบอย่างมากก็คือ มีการบูรณาการอย่างลึกซึ้งเข้ากับสแต็กเทคโนโลยี AI และจัดเตรียมชุดไลบรารีการปรับให้เหมาะสมที่กลายเป็นมาตรฐานโดยพฤตินัยในสาขานี้ ระบบนิเวศของซอฟต์แวร์นี้ได้สร้างเอฟเฟกต์เครือข่ายที่ทรงพลัง: นักวิจัยและนักพัฒนา AI ที่เชี่ยวชาญใน CUDA เผยแพร่การใช้งานไปยังสถาบันการศึกษาและอุตสาหกรรมในระหว่างกระบวนการฝึกอบรม
วงจรคุณธรรมที่เกิดขึ้นนั้นช่วยเสริมความแข็งแกร่งให้กับความเป็นผู้นำในตลาดของ NVIDIA เนื่องจากระบบนิเวศของเครื่องมือและไลบรารีที่ใช้ CUDA กลายเป็นสิ่งที่ขาดไม่ได้มากขึ้นสำหรับผู้ปฏิบัติงานด้าน AI
การประสานกันของฮาร์ดแวร์และซอฟต์แวร์นี้ไม่เพียงแต่ทำให้ตำแหน่งของ NVIDIA อยู่ในระดับแนวหน้าของการประมวลผล AI เท่านั้น แต่ยังทำให้บริษัทมีอำนาจในการกำหนดราคาที่สำคัญซึ่งหาได้ยากในตลาดฮาร์ดแวร์ที่มักเป็นสินค้าโภคภัณฑ์
การครอบงำของ CUDA และความสับสนของคู่แข่งอาจเกิดจากปัจจัยหลายประการที่สร้างอุปสรรคสำคัญในการเข้าสู่ ความได้เปรียบรายแรกของ NVIDIA ในการประมวลผลที่เร่งด้วย GPU ช่วยให้ CUDA สร้างระบบนิเวศที่แข็งแกร่งก่อนที่คู่แข่งจะตั้งหลักได้ แม้ว่าคู่แข่งเช่น AMD และ Intel จะมีฮาร์ดแวร์ที่ยอดเยี่ยม แต่เลเยอร์ซอฟต์แวร์ของพวกเขายังขาดไลบรารีและเครื่องมือที่จำเป็น และไม่สามารถรวมเข้ากับกลุ่มเทคโนโลยีที่มีอยู่ได้อย่างราบรื่น นี่คือจุดที่ทำให้เกิดช่องว่างขนาดใหญ่ระหว่าง NVIDIA/CUDA และเหตุผลของคู่แข่งรายอื่น
3. คอมไพเลอร์: นักแปล
TVM (Tensor Virtual Machine), MLIR (Multi-Layered Intermediate Representation) และ PlaidML มอบโซลูชันที่แตกต่างกันเพื่อรับมือกับความท้าทายในการเพิ่มประสิทธิภาพปริมาณงาน AI บนสถาปัตยกรรมฮาร์ดแวร์หลายตัว
TVM มีต้นกำเนิดจากการวิจัยที่มหาวิทยาลัยวอชิงตันและได้รับความสนใจอย่างรวดเร็วจากความสามารถในการปรับโมเดลการเรียนรู้เชิงลึกให้เหมาะสมสำหรับอุปกรณ์ที่หลากหลาย ตั้งแต่ GPU ประสิทธิภาพสูงไปจนถึงอุปกรณ์ Edge ที่จำกัดทรัพยากร ข้อได้เปรียบอยู่ที่กระบวนการปรับให้เหมาะสมตั้งแต่ต้นทางถึงปลายทาง ซึ่งมีประสิทธิผลเป็นพิเศษในสถานการณ์การอนุมาน โดยสรุปความแตกต่างของผู้จำหน่ายและฮาร์ดแวร์ที่สำคัญได้อย่างสมบูรณ์ ช่วยให้ปริมาณงานการอนุมานทำงานได้อย่างราบรื่นบนฮาร์ดแวร์ที่แตกต่างกัน ไม่ว่าจะเป็นอุปกรณ์ NVIDIA, AMD, Intel ฯลฯ
นอกเหนือจากการให้เหตุผลแล้ว สถานการณ์กลับซับซ้อนมากขึ้น เป้าหมายสูงสุดของการประมวลผลแบบเปลี่ยนฮาร์ดแวร์ได้สำหรับการฝึกอบรม AI ยังคงไม่ได้รับการแก้ไข อย่างไรก็ตาม มีความคิดริเริ่มหลายประการที่ควรกล่าวถึงในเรื่องนี้
MLIR ซึ่งเป็นโครงการของ Google ใช้แนวทางที่เป็นพื้นฐานมากขึ้น ด้วยการมอบการนำเสนอระดับกลางแบบรวมเป็นหนึ่งสำหรับระดับนามธรรมหลายระดับ โดยมีจุดมุ่งหมายเพื่อลดความซับซ้อนของโครงสร้างพื้นฐานคอมไพเลอร์ทั้งหมดสำหรับกรณีการใช้งานการอนุมานและการฝึกอบรม
PlaidML ซึ่งปัจจุบันนำโดย Intel ได้วางตำแหน่งตัวเองเป็นม้ามืดในการแข่งขัน โดยมุ่งเน้นที่ความสามารถในการพกพาข้ามสถาปัตยกรรมฮาร์ดแวร์หลายตัว ซึ่งรวมถึงสถาปัตยกรรมที่นอกเหนือไปจากตัวเร่งความเร็ว AI แบบเดิม และมองเห็นอนาคตที่ปริมาณงาน AI สามารถทำงานได้อย่างราบรื่นบนแพลตฟอร์มคอมพิวเตอร์ที่หลากหลาย
หากคอมไพเลอร์ตัวใดตัวหนึ่งสามารถรวมเข้ากับ Technology Stack ได้ดี โดยไม่กระทบต่อประสิทธิภาพของโมเดล และไม่จำเป็นต้องมีการดัดแปลงเพิ่มเติมใดๆ โดยนักพัฒนา สิ่งนี้มีแนวโน้มว่าจะคุกคามคูน้ำของ CUDA อย่างไรก็ตาม ในปัจจุบัน MLIR และ PlaidML ยังไม่เติบโตเพียงพอ และไม่ได้รับการบูรณาการที่ดีนักในกลุ่มเทคโนโลยีปัญญาประดิษฐ์ ดังนั้น ในปัจจุบันจึงไม่ก่อให้เกิดภัยคุกคามที่ชัดเจนต่อตำแหน่งผู้นำของ CUDA

4. คอมพิวเตอร์แบบกระจาย: ผู้ประสานงาน
Ray และ Horovod เป็นตัวแทนของสองแนวทางที่แตกต่างกันในการประมวลผลแบบกระจายในสาขา AI โดยแต่ละแนวทางตอบสนองความต้องการที่สำคัญสำหรับการประมวลผลที่ปรับขนาดได้ในแอปพลิเคชัน AI ขนาดใหญ่
Ray พัฒนาโดย RISELab ของ UC Berkeley เป็นเฟรมเวิร์กการประมวลผลแบบกระจายวัตถุประสงค์ทั่วไป มีความยืดหยุ่นเป็นเลิศ ช่วยให้สามารถกระจายปริมาณงานประเภทต่างๆ นอกเหนือจากการเรียนรู้ของเครื่อง โมเดลที่อิงนักแสดงใน Ray ช่วยให้กระบวนการขนานของโค้ด Python ง่ายขึ้นอย่างมาก ทำให้เหมาะอย่างยิ่งสำหรับการเรียนรู้แบบเสริมกำลังและงานปัญญาประดิษฐ์อื่นๆ ที่ต้องใช้ขั้นตอนการทำงานที่ซับซ้อนและหลากหลาย
Horovod ซึ่งเดิมออกแบบโดย Uber มุ่งเน้นไปที่การใช้งานการเรียนรู้เชิงลึกแบบกระจาย โดยเป็นโซลูชันที่กระชับและมีประสิทธิภาพสำหรับการปรับขนาดกระบวนการฝึกอบรมการเรียนรู้เชิงลึกใน GPU และโหนดเซิร์ฟเวอร์หลายตัว จุดเด่นของ Horovod คือการใช้งานง่ายและการเพิ่มประสิทธิภาพของการฝึกอบรมแบบคู่ขนานของข้อมูลโครงข่ายประสาทเทียม ซึ่งช่วยให้สามารถบูรณาการเข้ากับเฟรมเวิร์กการเรียนรู้เชิงลึกกระแสหลัก เช่น TensorFlow และ PyTorch ได้อย่างสมบูรณ์แบบ ช่วยให้นักพัฒนาสามารถขยายโค้ดการฝึกอบรมที่มีอยู่ได้อย่างง่ายดาย โดยไม่จำเป็นต้อง ทำการแก้ไขโค้ดอย่างกว้างขวาง
5. บทสรุป: จากมุมมองของสกุลเงินดิจิทัล
การบูรณาการกับสแต็ค AI ที่มีอยู่เป็นสิ่งสำคัญสำหรับโครงการ DePin ซึ่งมีเป้าหมายเพื่อสร้างระบบคอมพิวเตอร์แบบกระจาย การบูรณาการนี้รับประกันความเข้ากันได้กับเวิร์กโฟลว์และเครื่องมือ AI ในปัจจุบัน ซึ่งช่วยลดอุปสรรคในการนำไปใช้
ในด้านสกุลเงินดิจิทัล เครือข่าย GPU ปัจจุบันเป็นแพลตฟอร์มให้เช่า GPU แบบกระจายอำนาจ ซึ่งถือเป็นก้าวแรกสู่โครงสร้างพื้นฐาน AI แบบกระจายที่ซับซ้อนมากขึ้น แพลตฟอร์มเหล่านี้ทำงานเหมือนกับตลาดแบบ Airbnb มากกว่าแบบกระจายบนคลาวด์ แม้ว่าจะมีประโยชน์สำหรับบางแอปพลิเคชัน แต่แพลตฟอร์มเหล่านี้ไม่แข็งแกร่งพอที่จะรองรับการฝึกอบรมแบบกระจายอย่างแท้จริง ซึ่งเป็นข้อกำหนดสำคัญในการพัฒนาการพัฒนา AI ในวงกว้าง
มาตรฐานการประมวลผลแบบกระจายในปัจจุบัน เช่น Ray และ Horovod ไม่ได้ออกแบบมาสำหรับเครือข่ายแบบกระจายอำนาจทั่วโลก สำหรับเครือข่ายแบบกระจายอำนาจที่ทำงานอย่างแท้จริง เราจำเป็นต้องพัฒนาเฟรมเวิร์กอื่นบนเลเยอร์นี้ ผู้คลางแคลงใจบางคนถึงกับเชื่อว่าเนื่องจากโมเดล Transformer ต้องใช้การสื่อสารที่เข้มข้นและการเพิ่มประสิทธิภาพฟังก์ชันทั่วโลกในระหว่างกระบวนการเรียนรู้ จึงเข้ากันไม่ได้กับวิธีการฝึกอบรมแบบกระจาย ในทางกลับกัน ผู้มองโลกในแง่ดีกำลังพยายามสร้างเฟรมเวิร์กการประมวลผลแบบกระจายใหม่ที่ทำงานได้ดีกับฮาร์ดแวร์แบบกระจายทั่วโลก Yotta เป็นหนึ่งในสตาร์ทอัพที่พยายามแก้ไขปัญหานี้
NeuroMesh ก้าวไปอีกขั้นหนึ่ง ออกแบบกระบวนการเรียนรู้ของเครื่องใหม่ด้วยวิธีที่สร้างสรรค์เป็นพิเศษ NeuroMesh แก้ปัญหาคอขวดขั้นพื้นฐานในการฝึกอบรม AI แบบกระจายโดยใช้เครือข่ายการเข้ารหัสแบบคาดการณ์ (PCN) เพื่อค้นหาการบรรจบกันของการลดข้อผิดพลาดเฉพาะที่ แทนที่จะค้นหาวิธีแก้ปัญหาที่ดีที่สุดโดยตรงสำหรับฟังก์ชันการสูญเสียทั่วโลก
แนวทางนี้ไม่เพียงแต่ทำให้เกิดการทำงานแบบขนานที่ไม่เคยมีมาก่อน แต่ยังทำให้การฝึกอบรม AI เป็นประชาธิปไตยด้วยการทำให้สามารถฝึกอบรมโมเดลบนฮาร์ดแวร์ GPU ระดับผู้บริโภค เช่น RTX 4090 ได้ โดยเฉพาะอย่างยิ่ง พลังการประมวลผลของ GPU 4090 นั้นใกล้เคียงกับของ H 100 แต่เนื่องจากมีแบนด์วิดท์ไม่เพียงพอ จึงไม่ได้ใช้งานอย่างเต็มที่ระหว่างการฝึกโมเดล เนื่องจาก PCN ลดความสำคัญของแบนด์วิธ จึงเป็นไปได้ที่จะใช้ประโยชน์จาก GPU ระดับล่างเหล่านี้ ซึ่งอาจส่งผลให้ประหยัดต้นทุนและเพิ่มประสิทธิภาพได้อย่างมาก
GenSyn สตาร์ทอัพ crypto AI ที่มีความทะเยอทะยานอีกรายหนึ่ง มีเป้าหมายที่จะสร้างชุดคอมไพเลอร์ คอมไพเลอร์ของ Gensyn ช่วยให้สามารถใช้ฮาร์ดแวร์คอมพิวเตอร์ทุกประเภทกับปริมาณงาน AI ได้อย่างราบรื่น ตัวอย่างเช่น สิ่งที่ TVM ทำเพื่อการอนุมาน GenSyn กำลังพยายามสร้างเครื่องมือที่คล้ายกันสำหรับการฝึกโมเดล
หากประสบความสำเร็จ จะสามารถขยายขีดความสามารถของเครือข่ายคอมพิวเตอร์ AI แบบกระจายอำนาจได้อย่างมาก เพื่อจัดการกับงาน AI ที่ซับซ้อนและหลากหลายมากขึ้น โดยใช้ฮาร์ดแวร์ต่างๆ อย่างมีประสิทธิภาพ วิสัยทัศน์อันทะเยอทะยานนี้ แม้จะท้าทายเนื่องจากความซับซ้อนและความเสี่ยงทางเทคนิคในการปรับให้เหมาะสมบนสถาปัตยกรรมฮาร์ดแวร์ที่หลากหลาย แต่อาจเป็นเทคโนโลยีที่หากสามารถดำเนินการได้ จะสามารถเอาชนะอุปสรรค เช่น การรักษาประสิทธิภาพของระบบที่แตกต่างกัน ทำให้คูน้ำของ CUDA และ NVIDIA อ่อนแอลง
เกี่ยวกับการให้เหตุผล: วิธีการของไฮเปอร์โบลิกซึ่งผสมผสานการให้เหตุผลที่ตรวจสอบได้เข้ากับเครือข่ายการกระจายอำนาจของทรัพยากรคอมพิวเตอร์ที่แตกต่างกัน ถือเป็นกลยุทธ์ที่ค่อนข้างใช้งานได้จริง ด้วยการใช้ประโยชน์จากมาตรฐานคอมไพเลอร์ เช่น TVM ไฮเปอร์โบลิกสามารถใช้ประโยชน์จากการกำหนดค่าฮาร์ดแวร์ที่หลากหลาย ในขณะที่ยังคงประสิทธิภาพและความน่าเชื่อถือไว้ได้ สามารถรวมชิปจากผู้จำหน่ายหลายราย (ตั้งแต่ NVIDIA ถึง AMD, Intel ฯลฯ ) รวมถึงฮาร์ดแวร์ระดับผู้บริโภคและฮาร์ดแวร์ประสิทธิภาพสูง
การพัฒนาเหล่านี้ที่จุดตัดของ crypto-AI แสดงถึงอนาคตที่การประมวลผล AI อาจมีการกระจาย มีประสิทธิภาพ และเข้าถึงได้มากขึ้น ความสำเร็จของโครงการเหล่านี้จะไม่เพียงแต่ขึ้นอยู่กับคุณธรรมทางเทคนิคเท่านั้น แต่ยังขึ้นอยู่กับความสามารถในการบูรณาการเข้ากับเวิร์กโฟลว์ AI ที่มีอยู่ได้อย่างราบรื่น และจัดการกับข้อกังวลในทางปฏิบัติของผู้ปฏิบัติงานและองค์กรด้าน AI


