ชื่อเรื่องเดิม: ข้อมูลของฉันไม่ใช่ของฉัน: การเกิดขึ้นของชั้นข้อมูล
ผู้เขียนต้นฉบับ: 0xJeff ( @Defi0xJeff )
เรียบเรียงโดย : Asher ( @Asher_0210 )

เนื่องจากในปัจจุบันผู้คนส่วนใหญ่มุ่งความสนใจไปที่ออนไลน์ ข้อมูลจึงถือเป็นทองคำดิจิทัลของยุคนี้ เวลาหน้าจอเฉลี่ยทั่วโลกในปี 2024 อยู่ที่ 6 ชั่วโมง 40 นาทีต่อวัน เพิ่มขึ้นจากปีก่อนๆ ในสหรัฐอเมริกา ตัวเลขนี้สูงกว่านั้นถึง 7 ชั่วโมง 3 นาทีต่อวัน
ด้วยระดับการมีส่วนร่วมที่สูงเช่นนี้ ปริมาณข้อมูลที่สร้างขึ้นจึงมหาศาล โดยมีข้อมูลที่สร้างขึ้นถึง 3.2877 TB ทุกวันใน ปี 2024 ซึ่งแปลเป็นข้อมูลประมาณ 0.4 ZB ต่อวัน (1 ZB = 1,000,000,000 TB) โดยคำนึงถึงข้อมูลใหม่ทั้งหมดที่สร้าง บันทึก จำลอง หรือใช้งาน
อย่างไรก็ตาม แม้ว่าจะมีการสร้างและใช้ข้อมูลจำนวนมหาศาลทุกวัน แต่ผู้ใช้กลับเป็นเจ้าของข้อมูลเพียงเล็กน้อยเท่านั้น:
โซเชียลมีเดีย: ข้อมูลบนแพลตฟอร์มเช่น X, Instagram ฯลฯ ถูกควบคุมโดยบริษัท ถึงแม้ว่าข้อมูลเหล่านั้นจะสร้างขึ้นโดยผู้ใช้ก็ตาม
อินเทอร์เน็ตของสรรพสิ่ง (IoT): ข้อมูลจากอุปกรณ์อัจฉริยะโดยทั่วไปจะเป็นของผู้ผลิตอุปกรณ์หรือผู้ให้บริการ เว้นแต่จะระบุไว้เป็นอย่างอื่นในข้อตกลงเฉพาะ
ข้อมูลด้านสุขภาพ: แม้ว่าบุคคลจะมีสิทธิ์ในข้อมูลทางการแพทย์ของตนเอง แต่ข้อมูลส่วนใหญ่จากแอปสุขภาพหรืออุปกรณ์สวมใส่จะถูกควบคุมโดยบริษัทที่ให้บริการเหล่านั้น
การเข้ารหัสและข้อมูลทางสังคม
ในพื้นที่ของสกุลเงินดิจิทัล เราได้เห็นการเติบโตของ Kaito AI ซึ่งจัดทำดัชนีข้อมูลโซเชียลบนแพลตฟอร์ม X และเปลี่ยนให้เป็นข้อมูลความรู้สึกที่สามารถดำเนินการได้สำหรับโครงการ KOL และผู้นำทางความคิดใช้งาน คำว่า “yap” และ “mindshare” เป็นที่นิยมโดยทีม Kaito เนื่องจากความเชี่ยวชาญของพวกเขาในด้านการแฮ็กการเติบโต (ผ่านแดชบอร์ด mindshare และ yapper ที่ได้รับความนิยม) และความสามารถในการดึงดูดความสนใจจากผู้ใช้บน Crypto Twitter
“Yap” มุ่งหวังที่จะกระตุ้นให้เกิดการสร้างเนื้อหาที่มีคุณภาพบนแพลตฟอร์ม X แต่ยังมีคำถามมากมายที่ยังไม่ได้รับคำตอบ:
"yaps" ให้คะแนน "แม่นยำ" ได้อย่างไร?
การเอ่ยถึงไคโตะจะทำให้คุณได้รับเสียง "เห่า" เพิ่มขึ้นหรือเปล่า?
ไคโตะให้รางวัลกับเนื้อหาคุณภาพจริงหรือหรือชอบความเห็นที่ค่อนข้างขัดแย้งและเป็นที่นิยมมากกว่า?
นอกเหนือจากข้อมูลทางสังคมแล้ว ยังมีการอภิปรายที่ร้อนแรงมากขึ้นเกี่ยวกับความเป็นเจ้าของข้อมูล ความเป็นส่วนตัว และความโปร่งใส ในขณะที่ปัญญาประดิษฐ์มีความก้าวหน้าอย่างรวดเร็ว คำถามใหม่ๆ ก็เกิดขึ้น: ใครเป็นเจ้าของข้อมูลที่ใช้ในการฝึกอบรมโมเดล AI? ใครได้รับประโยชน์จากผลลัพธ์ที่สร้างโดย AI? ปัญหาเหล่านี้จะปูทางไปสู่การเติบโตของเลเยอร์ข้อมูล Web3 ซึ่งเป็นก้าวสู่ระบบนิเวศข้อมูลที่กระจายอำนาจและขับเคลื่อนโดยผู้ใช้
การเกิดขึ้นของชั้นข้อมูล
ในพื้นที่ Web3 ระบบนิเวศของชั้นข้อมูล โปรโตคอล และโครงสร้างพื้นฐานที่เติบโตกำลังเกิดขึ้น ซึ่งมีเป้าหมายที่จะเปิดใช้งานอำนาจอธิปไตยของข้อมูลส่วนบุคคล ให้บุคคลสามารถควบคุมข้อมูลของตนเองได้มากขึ้น และสร้างโอกาสในการสร้างรายได้
วานา

ภารกิจหลักของ Vana คือการมอบอำนาจให้ผู้ใช้ควบคุมข้อมูลของตนเอง โดยเฉพาะอย่างยิ่งในบริบทของ AI ที่ข้อมูลมีคุณค่าอย่างยิ่งสำหรับการฝึกอบรมโมเดล Vana เปิดตัว DataDAO ซึ่งเป็นองค์กรที่ขับเคลื่อนโดยชุมชน โดยให้ผู้ใช้รวบรวมข้อมูลเพื่อประโยชน์ร่วมกัน แต่ละ DataDAO จะมุ่งเน้นไปที่ชุดข้อมูลเฉพาะ:
r/datadao: มุ่งเน้นข้อมูลผู้ใช้ Reddit ช่วยให้ผู้ใช้สามารถควบคุมและสร้างรายได้จากการมีส่วนร่วมของตนเองได้
Volara: ประมวลผลข้อมูลแพลตฟอร์ม X เพื่อให้ผู้ใช้สามารถได้รับประโยชน์จากกิจกรรมโซเชียลมีเดียของตน
DNA DAO: มุ่งเน้นการจัดการข้อมูลทางพันธุกรรมโดยเน้นที่ความเป็นส่วนตัวและความเป็นเจ้าของ
Vana แบ่งกลุ่มข้อมูลออกเป็นสินทรัพย์ที่สามารถซื้อขายได้ซึ่งเรียกว่า "DLP" DLP แต่ละรายการจะรวบรวมข้อมูลในฟิลด์เฉพาะ และผู้ใช้สามารถวางโทเค็นลงในกลุ่มเหล่านี้เพื่อรับรางวัล โดยกลุ่มชั้นนำจะได้รับรางวัลตามการสนับสนุนของชุมชนและคุณภาพของข้อมูล สิ่งที่ทำให้ Vana โดดเด่นคือความง่ายในการนำเสนอข้อมูล ผู้ใช้เพียงแค่ เลือก DataDAO รวบรวมข้อมูลโดยตรงผ่านการรวม API หรืออัปโหลดข้อมูลด้วยตนเอง และ รับโทเค็น DataDAO และโทเค็น VANA เป็นรางวัล
โปรโตคอลมหาสมุทร

Ocean Protocol คือตลาดข้อมูลแบบกระจายอำนาจที่ให้ผู้ให้บริการข้อมูลสามารถแบ่งปัน ขาย หรืออนุญาตให้ใช้ข้อมูลของตนเอง ในขณะที่ผู้บริโภคสามารถเข้าถึงข้อมูลเหล่านี้เพื่อใช้ใน AI และการวิจัยได้ Ocean Protocol ใช้ “datatoken” (โทเค็น ERC 20) เพื่อแสดงการเข้าถึงชุดข้อมูล ช่วยให้ผู้ให้บริการข้อมูลสามารถสร้างรายได้จากข้อมูลของตนได้ในขณะที่ยังคงควบคุมเงื่อนไขการเข้าถึงไว้ได้
ประเภทของข้อมูลที่ซื้อขายบน Ocean Protocol มีดังนี้:
ข้อมูลสาธารณะหมายถึงชุดข้อมูลเปิด เช่น ข้อมูลสภาพอากาศ ข้อมูลประชากรศาสตร์สาธารณะ หรือข้อมูลหุ้นในอดีต ซึ่งมีค่ามากสำหรับการฝึกอบรมและการวิจัย AI
ข้อมูลส่วนตัวได้แก่บันทึกทางการแพทย์ ธุรกรรมทางการเงิน ข้อมูลเซ็นเซอร์ IoT หรือข้อมูลผู้ใช้ส่วนบุคคล ซึ่งต้องมีการควบคุมความเป็นส่วนตัวอย่างเข้มงวด
Compute-to-Data เป็นฟีเจอร์หลักอีกประการหนึ่งของ Ocean Protocol ที่ช่วยให้สามารถคำนวณข้อมูลได้โดยไม่ต้องเคลื่อนย้ายข้อมูล จึงรับประกันความเป็นส่วนตัวและความปลอดภัยของชุดข้อมูลที่ละเอียดอ่อน
มาซ่า

Masa มุ่งเน้นที่การสร้างเลเยอร์เปิดสำหรับข้อมูลการฝึกอบรม AI โดยมอบข้อมูลแบบเรียลไทม์ที่มีคุณภาพสูงและต้นทุนต่ำให้กับตัวแทนและนักพัฒนา AI
Masa เปิดตัวสองซับเน็ตบนเครือข่าย Bittensor:
Subnet 42 ( SN42 ): รวบรวมและประมวลผลบันทึกข้อมูลนับล้านรายการต่อวัน ซึ่งสร้างรากฐานให้กับตัวแทน AI และการพัฒนาแอปพลิเคชัน
Subnet 59 ( SN59 ) – “เวทีตัวแทน AI”: สภาพแวดล้อมการแข่งขันที่ตัวแทน AI ใช้ประโยชน์จากข้อมูลเรียลไทม์จาก SN42 เพื่อแข่งขันกันเพื่อการเผยแพร่ TAO โดยอิงตามตัวชี้วัดประสิทธิภาพ เช่น การแบ่งปันความคิด การมีส่วนร่วมของผู้ใช้ และการปรับปรุงตนเอง
นอกจากนี้ Masa ยังได้ร่วมมือกับ Virtuals Protocol เพื่อมอบความสามารถข้อมูลแบบเรียลไทม์ให้กับตัวแทน Virtuals Protocol นอกจากนี้ยังเปิดตัวโทเค็น TAOCAT เพื่อแสดงให้เห็นถึงศักยภาพของมัน (ปัจจุบันอยู่บน Binance Alpha)
เปิดบัญชีแยกประเภท

Open Ledger กำลังสร้างบล็อคเชนที่ออกแบบมาโดยเฉพาะสำหรับข้อมูล โดยเฉพาะอย่างยิ่งสำหรับแอปพลิเคชัน AI และการเรียนรู้ของเครื่องจักร เพื่อให้แน่ใจว่าการจัดการข้อมูลมีความปลอดภัย กระจายอำนาจ และตรวจสอบได้ ไฮไลท์ ได้แก่:
Datanets: เครือข่ายแหล่งข้อมูลเฉพาะทางภายใน OpenLedger ที่คัดสรรและเสริมข้อมูลโลกแห่งความจริงสำหรับแอปพลิเคชัน AI
SLM: โมเดล AI ที่ได้รับการปรับแต่งสำหรับอุตสาหกรรมหรือแอปพลิเคชันเฉพาะ แนวคิดคือการนำเสนอโมเดลที่ไม่เพียงแต่แม่นยำกว่าในกรณีการใช้งานเฉพาะเท่านั้น แต่ยังสอดคล้องกับข้อกำหนดด้านความเป็นส่วนตัว และมีแนวโน้มเกิดอคติน้อยลงในโมเดลเอนกประสงค์อีกด้วย
การตรวจสอบข้อมูล: การรับประกันความถูกต้องแม่นยำและความน่าเชื่อถือของข้อมูลที่ใช้ฝึก Specific Language Models (SLM) ว่าโมเดลเหล่านี้แม่นยำและเชื่อถือได้สำหรับกรณีการใช้งานเฉพาะ
ความต้องการข้อมูลในการฝึกอบรม AI
ความต้องการข้อมูลที่มีคุณภาพสูงเพิ่มสูงขึ้นเพื่อกระตุ้นการพัฒนาปัญญาประดิษฐ์และตัวแทนอัตโนมัติ นอกเหนือจากการฝึกเบื้องต้นแล้ว ตัวแทน AI ยังต้องการข้อมูลแบบเรียลไทม์เพื่อการเรียนรู้และการปรับตัวอย่างต่อเนื่อง ความท้าทายและโอกาสที่สำคัญ ได้แก่:
คุณภาพข้อมูลมากกว่าปริมาณ: โมเดล AI ต้องการข้อมูลที่มีคุณภาพสูง หลากหลาย และเกี่ยวข้อง เพื่อหลีกเลี่ยงอคติหรือประสิทธิภาพที่ไม่ดี
อำนาจอธิปไตยและความเป็นส่วนตัวของข้อมูล: ดังที่ Vana แสดงให้เห็น มีการผลักดันเพื่อสร้างรายได้จากข้อมูลที่ผู้ใช้เป็นเจ้าของ ซึ่งอาจปรับเปลี่ยนวิธีการรวบรวมข้อมูลการฝึก AI
ข้อมูลสังเคราะห์: เนื่องด้วยความกังวลเรื่องความเป็นส่วนตัว ข้อมูลสังเคราะห์จึงได้รับความสนใจเพิ่มมากขึ้นในฐานะช่องทางในการฝึกโมเดล AI ขณะเดียวกันก็บรรเทาความกังวลด้านจริยธรรม
ตลาดข้อมูล: การเพิ่มขึ้นของตลาดข้อมูล (แบบรวมศูนย์และกระจายอำนาจ) กำลังสร้างเศรษฐกิจที่ข้อมูลเป็นสินทรัพย์ที่สามารถซื้อขายได้
AI ในการจัดการข้อมูล: ขณะนี้ AI ถูกนำมาใช้เพื่อจัดการ ทำความสะอาด และปรับปรุงชุดข้อมูล ซึ่งจะช่วยปรับปรุงคุณภาพของข้อมูลสำหรับการฝึกอบรม AI
เนื่องจากตัวแทน AI กลายเป็นอิสระมากขึ้น การเข้าถึงและความสามารถในการประมวลผลข้อมูลคุณภาพสูงแบบเรียลไทม์จะส่งผลโดยตรงต่อประสิทธิภาพการทำงานของตัวแทน ความต้องการที่เพิ่มขึ้นนี้ทำให้เกิดตลาดข้อมูลที่สร้างขึ้นโดยเฉพาะสำหรับตัวแทน AI โดยทั้งตัวแทน AI และมนุษย์สามารถเข้าถึงข้อมูลคุณภาพสูงได้
ตลาดข้อมูลพร็อกซี Web3
คุกกี้ DAO รวบรวมข้อมูลความรู้สึกทางสังคมจากตัวแทน AI และข้อมูลที่เกี่ยวข้องกับโทเค็น เปลี่ยนให้เป็นข้อมูลเชิงลึกที่สามารถดำเนินการได้สำหรับมนุษย์และตัวแทน AI API ของคุกกี้ DataSwarm ช่วยให้ตัวแทน AI สามารถเข้าถึงข้อมูลคุณภาพสูงแบบเรียลไทม์เพื่อรับข้อมูลเชิงลึกที่เกี่ยวข้องกับการซื้อขาย ซึ่งเป็นหนึ่งในแอปพลิเคชันที่พบได้บ่อยที่สุดในพื้นที่ของสกุลเงินดิจิทัล นอกจากนี้ ด้วยผู้ใช้งานรายเดือนที่ใช้งานจริงจำนวน 200,000 รายและผู้ใช้งานรายวันจำนวน 20,000 ราย Cookie จึงเป็นหนึ่งในตลาดข้อมูลตัวแทน AI ที่ใหญ่ที่สุด โดยมีโทเค็น COOKIE เป็นแกนหลัก
สุดท้ายโครงการอื่น ๆ ที่น่าสังเกตในพื้นที่นี้ก็คือ:
GoatIndex.ai มุ่งเน้นไปที่ข้อมูลเชิงลึกของระบบนิเวศโซลานา
Decentralised.Co มุ่งเน้นไปที่แดชบอร์ดข้อมูลเฉพาะกลุ่มเช่น GitHub และการวิเคราะห์เฉพาะโครงการ


