위험 경고: '가상화폐', '블록체인'이라는 이름으로 불법 자금 모집 위험에 주의하세요. — 은행보험감독관리위원회 등 5개 부처
검색
로그인
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt
BTC
ETH
HTX
SOL
BNB
시장 동향 보기
내 데이터는 누구의 소유인가요? 데이터 계층의 어떤 프로젝트에 주목할 가치가 있나요?
Asher
Odaily资深作者
@Asher_0210
2025-02-03 12:55
이 기사는 약 2400자로, 전체를 읽는 데 약 4분이 소요됩니다
Vana, Ocean Protocol, Masa, Open Ledger 등의 프로젝트를 다루며 인공지능 훈련에 필요한 데이터 요구 사항을 심층적으로 분석합니다.

원제: 내 데이터는 내 것이 아니다: 데이터 레이어의 등장

원래 작성자: 0xJeff ( @Defi0xJeff )

편집자: Asher( @Asher_0210 )

현재 대부분의 사람들의 관심이 온라인에 집중되어 있기 때문에, 데이터는 이 시대의 디지털 보물입니다. 2024년 전 세계 평균 화면 시간은 하루 6시간 40분으로 전년보다 증가할 전망입니다. 미국에서는 이 수치가 더 높아서 하루 평균 7시간 3분에 이릅니다.

이렇게 높은 수준의 참여로 인해 생성되는 데이터 양도 엄청나서, 2024년 에는 매일 3.2877TB에 달하는 데이터가 생성될 예정입니다. 이는 하루에 약 0.4ZB(1ZB = 1,000,000,000TB )의 데이터에 해당하며, 생성, 캡처, 복제 또는 소비된 모든 새 데이터를 나타냅니다.

그러나 매일 생성되고 소비되는 엄청난 양의 데이터에도 불구하고 사용자가 소유한 것은 매우 적습니다.

  • 소셜 미디어: X, 인스타그램 등의 플랫폼에 있는 데이터는 사용자가 생성한 것이라 하더라도 해당 회사가 제어합니다.

  • 사물 인터넷(IoT): 스마트 기기의 데이터는 특정 계약에 달리 명시되지 않는 한 일반적으로 기기 제조업체 또는 서비스 제공업체의 소유입니다.

  • 건강 데이터: 개인은 자신의 의료 기록에 대한 권리가 있지만, 건강 앱이나 웨어러블 기기의 데이터 대부분은 해당 서비스를 제공하는 회사가 관리합니다.

암호화 및 소셜 데이터

암호화폐 분야에서는 X 플랫폼에서 소셜 데이터를 색인화하고 이를 프로젝트, KOL 및 사상적 리더가 사용할 수 있는 실행 가능한 감정 데이터로 전환하는 Kaito AI 의 부상이 있었습니다. "yap"과 "mindshare"라는 용어는 Kaito 팀이 성장 해킹(인기 있는 mindshare 및 yapper 대시보드를 통해)에 대한 전문성과 Crypto Twitter에서 자연스러운 관심을 끌어내는 능력 덕분에 유명해졌습니다.

"Yap"은 X 플랫폼에서 고품질 콘텐츠 생성을 장려하는 것을 목표로 하지만, 여전히 많은 의문이 풀리지 않았습니다.

  • "yaps"는 어떻게 "정확하게" 평가되나요?

  • 카이토를 언급하면 추가로 '야유'를 받을 수 있나요?

  • 카이토는 정말로 양질의 콘텐츠에 보상을 주는가, 아니면 논란이 많고 대중적인 의견을 선호하나?

소셜 데이터 외에도 데이터 소유권, 개인정보 보호, 투명성에 대한 논의가 점점 더 격화되고 있습니다. 인공지능이 급속히 발전함에 따라 새로운 의문이 제기되고 있습니다. AI 모델을 훈련하는 데 사용되는 데이터는 누가 소유할까요? AI가 생성한 결과로 누가 이익을 얻는가? 이러한 문제는 분산형 사용자 중심 데이터 생태계를 향한 한 걸음인 Web3 데이터 계층의 부상을 위한 길을 열어줍니다.

데이터 계층의 등장

Web3 공간에서는 개인 데이터 주권을 실현하고, 개인에게 자신의 데이터에 대한 더 큰 통제력을 부여하며, 수익 창출 기회를 제공하는 것을 목표로 하는 데이터 계층, 프로토콜 및 인프라로 구성된 생태계가 확대되고 있습니다.

바나

Vana 의 핵심 사명은 사용자에게 데이터를 제어할 수 있는 권한을 부여하는 것입니다. 특히 AI의 경우 데이터가 모델 학습에 매우 중요합니다. Vana는 사용자가 공익을 위해 데이터를 모으는 커뮤니티 중심 단체인 DataDAO를 출시했습니다. 각 DataDAO는 특정 데이터 세트에 초점을 맞춥니다.

  • r/datadao: Reddit 사용자 데이터에 중점을 두고 사용자가 자신의 기여를 제어하고 수익화할 수 있도록 합니다.

  • Volara: 사용자가 소셜 미디어 활동에서 이익을 얻을 수 있도록 X 플랫폼 데이터를 처리합니다.

  • DNA DAO: 개인 정보 보호와 소유권에 초점을 맞춰 유전 데이터를 관리하는 것을 목표로 합니다.

Vana는 데이터를 "DLP"라는 거래 가능한 자산으로 분할합니다. 각 DLP는 특정 분야의 데이터를 집계하고, 사용자는 이러한 풀에 토큰을 투자하여 보상을 받을 수 있으며, 가장 우수한 풀은 커뮤니티 지원 및 데이터 품질에 따라 보상을 받습니다. Vana의 가장 큰 장점은 데이터를 쉽게 제공할 수 있다는 것입니다. 사용자는 간단히 DataDAO를 선택하고 API 통합을 통해 직접 데이터를 집계하거나 수동으로 데이터를 업로드하여 보상으로 DataDAO 토큰과 VANA 토큰을 얻습니다.

해양 프로토콜

Ocean Protocol 은 데이터 제공자가 데이터를 공유, 판매 또는 라이선스하고, 소비자는 이 데이터에 액세스하여 AI 및 연구에 사용할 수 있는 분산형 데이터 마켓플레이스입니다. Ocean Protocol은 데이터 세트에 대한 액세스를 나타내기 위해 "데이터 토큰"(ERC 20 토큰)을 사용하여 데이터 제공자가 액세스 조건을 제어하는 동시에 데이터를 수익화할 수 있도록 합니다.

Ocean Protocol에서 거래되는 데이터 유형은 다음과 같습니다.

  • 공공 데이터는 날씨 정보, 공공 인구 통계, 과거 주식 데이터와 같이 AI 훈련 및 연구에 매우 귀중한 오픈 데이터 세트를 말합니다.

  • 개인 데이터에는 엄격한 개인 정보 보호 관리가 필요한 의료 기록, 금융 거래, IoT 센서 데이터 또는 개인화된 사용자 데이터가 포함됩니다.

Ocean Protocol의 또 다른 주요 기능인 '데이터로의 계산'은 데이터를 이동하지 않고도 데이터에 대한 계산을 수행할 수 있게 해 주므로 민감한 데이터 세트의 개인 정보 보호와 보안을 보장합니다.

마사

마사는 AI 훈련 데이터를 위한 오픈 레이어를 구축하고 AI 에이전트와 개발자에게 실시간, 고품질, 저비용 데이터를 제공하는 데 중점을 두고 있습니다.

Masa는 Bittensor 네트워크에서 두 개의 서브넷을 시작했습니다.

  • 서브넷 42 ( SN42 ): 하루에 수백만 개의 데이터 레코드를 집계하고 처리하여 AI 에이전트와 애플리케이션 개발을 위한 기반을 제공합니다.

  • 서브넷 59 ( SN59 ) – "AI 에이전트 아레나": AI 에이전트가 SN42 의 실시간 데이터를 활용하여 마인드 셰어, 사용자 참여, 자기 계발과 같은 성과 지표를 기반으로 TAO 릴리스를 놓고 경쟁하는 경쟁 환경입니다.

또한 Masa는 Virtuals Protocol 과 협력하여 Virtuals Protocol 에이전트에 실시간 데이터 기능을 제공합니다. 또한 TAOCAT 토큰을 출시하여 그 역량을 입증했습니다(현재는 Binance Alpha에 있음).

오픈 레저

Open Ledger는 특히 AI 및 머신 러닝 애플리케이션을 위한 데이터에 맞게 특별히 맞춤화된 블록체인을 구축하여 안전하고 분산적이며 검증 가능한 데이터 관리를 보장합니다. 주요 내용은 다음과 같습니다.

  • 데이터넷: OpenLedger 내의 전문화된 데이터 소스 네트워크로, AI 애플리케이션을 위해 실제 데이터를 정리하고 풍부하게 만듭니다.

  • SLM: 특정 산업이나 애플리케이션에 맞게 맞춤화된 AI 모델. 이 아이디어는 틈새 사용 사례에서 더 정확한 모델을 제공할 뿐만 아니라 개인정보 보호 요구 사항을 준수하고 일반 용도 모델에 존재하는 편향에 덜 취약한 모델을 제공하는 것입니다.

  • 데이터 검증: 특정 언어 모델(SLM)을 훈련하는 데 사용된 데이터의 정확성과 신뢰성을 보장하여 이러한 모델이 특정 사용 사례에 대해 정확하고 신뢰할 수 있는지 확인합니다.

AI 훈련에 필요한 데이터

인공지능과 자율형 에이전트의 개발을 촉진하기 위해 고품질 데이터에 대한 수요가 급증하고 있습니다. 초기 훈련 외에도 AI 에이전트는 지속적인 학습과 적응을 위해 실시간 데이터도 필요합니다. 주요 과제와 기회는 다음과 같습니다.

  • 양보다 데이터의 질이 중요합니다. AI 모델은 편향이나 성능 저하를 피하기 위해 다양하고 관련성 있는 고품질의 데이터가 필요합니다.

  • 데이터 주권과 개인 정보 보호: Vana가 보여주듯이 사용자 소유 데이터를 수익화하려는 움직임이 있는데, 이는 AI 훈련 데이터를 수집하는 방식을 바꿀 수 있습니다.

  • 합성 데이터: 개인정보 보호 문제로 인해 윤리적 우려를 완화하면서 AI 모델을 훈련하는 방법으로 합성 데이터가 주목을 받고 있습니다.

  • 데이터 마켓플레이스: 데이터 마켓플레이스(중앙집중형 및 분산형)의 등장으로 데이터가 거래 가능한 자산이 되는 경제가 형성되고 있습니다.

  • 데이터 관리 분야의 AI: AI는 이제 데이터 세트를 관리, 정리, 개선하는 데 사용되어 AI 훈련을 위한 데이터 품질을 향상시키고 있습니다.

AI 에이전트의 자율성이 높아짐에 따라 실시간 고품질 데이터에 대한 접근성과 이를 처리하는 능력은 AI 에이전트의 효과성에 직접적인 영향을 미칠 것입니다. 이러한 수요 증가로 인해 AI 에이전트를 위해 특별히 구축된 데이터 마켓플레이스가 생겨났으며, AI 에이전트와 사람 모두 고품질 데이터에 액세스할 수 있습니다.

Web3 프록시 데이터 시장

쿠키 DAO는 AI 에이전트로부터 소셜 감정 데이터와 토큰 관련 정보를 집계하여 사람과 AI 에이전트에게 실행 가능한 통찰력을 제공합니다. Cookie DataSwarm API를 사용하면 AI 에이전트가 실시간으로 고품질 데이터에 액세스하여 거래 관련 통찰력을 얻을 수 있습니다. 이는 암호화폐 분야에서 가장 일반적인 응용 프로그램 중 하나입니다. 또한, 월간 활성 사용자가 20만 명, 일간 활성 사용자가 2만 명인 Cookie는 COOKIE 토큰을 핵심으로 하는 최대 규모의 AI 에이전트 데이터 마켓플레이스 중 하나입니다.

마지막으로, 이 분야에서 주목할 만한 다른 프로젝트는 다음과 같습니다.

  • GoatIndex.ai는 Solana 생태계에 대한 통찰력에 중점을 둡니다.

  • Decentralised.Co는 GitHub과 프로젝트별 분석과 같은 틈새 시장 데이터 대시보드에 중점을 둡니다.

Layer 1
AI
Odaily 공식 커뮤니티에 가입하세요