원저자: Mohit Pandit, IOSG Ventures

요약
GPU 부족이 현실이고 공급과 수요가 빠듯하지만 활용도가 낮은 GPU의 수는 오늘날의 빠듯한 공급 요구를 충족할 수 있습니다.
클라우드 컴퓨팅 참여를 촉진하고 궁극적으로 추론 또는 교육을 위한 컴퓨팅 작업을 조정하려면 인센티브 계층이 필요합니다. DePIN 모델은 이러한 목적에 완벽합니다.
공급측 인센티브로 인해 계산 비용이 낮기 때문에 수요측에서는 이것이 매력적이라고 생각합니다.
모든 것이 장밋빛은 아니지만, Web3 클라우드를 선택할 때 대기 시간과 같은 특정 장단점을 고려해야 합니다. 기존 GPU 클라우드와 비교하여 직면한 절충안에는 보험, 서비스 수준 계약(서비스 수준 계약) 등도 포함됩니다.
DePIN 모델은 GPU 가용성 문제를 해결할 수 있는 잠재력을 가지고 있지만 단편화된 모델로는 상황이 개선되지 않습니다. 수요가 기하급수적으로 증가하는 상황에서 공급이 단편화되면 공급이 없는 것과 같습니다.
새로운 시장 참가자의 수를 고려할 때 시장 수렴은 불가피합니다.
소개
우리는 머신러닝과 인공지능의 새로운 시대를 맞이하고 있습니다. AI는 한동안 다양한 형태로 존재해 왔지만(AI는 세탁기처럼 인간이 할 수 있는 일을 수행하라는 컴퓨터 장치입니다), 이제 우리는 지능이 필요한 작업을 수행할 수 있는 정교한 인지 모델의 출현을 목격하고 있습니다. 인간 행동 과제. 주목할만한 예로는 OpenAI의 GPT-4 및 DALL-E 2, Google의 Gemini가 있습니다.
빠르게 성장하는 인공 지능(AI) 분야에서 우리는 모델 훈련과 추론이라는 개발의 이중 측면을 인식해야 합니다. 추론에는 AI 모델의 기능과 출력이 포함되는 반면, 교육에는 지능형 모델을 구축하는 데 필요한 복잡한 프로세스(기계 학습 알고리즘, 데이터 세트, 컴퓨팅 성능 포함)가 포함됩니다.
GPT-4의 경우 최종 사용자가 관심을 갖는 모든 것은 추론입니다. 즉, 텍스트 입력을 기반으로 모델에서 출력을 얻는 것입니다. 그러나 이 추론의 품질은 모델 훈련에 따라 달라집니다. 효과적인 AI 모델을 교육하려면 개발자는 포괄적인 기본 데이터 세트와 대규모 컴퓨팅 성능에 액세스해야 합니다. 이러한 리소스는 주로 OpenAI, Google, Microsoft 및 AWS를 포함한 업계 거대 기업의 손에 집중되어 있습니다.
공식은 간단합니다. 더 나은 모델 교육은 >> AI 모델의 추론 기능 향상으로 이어지며 >> 이를 통해 더 많은 사용자를 유치하고 >> 결과적으로 추가 교육을 위한 리소스도 증가합니다.
이러한 주요 기업은 대규모 기본 데이터 세트에 액세스할 수 있으며, 결정적으로 대량의 컴퓨팅 성능을 제어하여 신흥 개발자의 진입 장벽을 만듭니다. 결과적으로 신규 진입자는 경제적으로 실현 가능한 규모와 비용으로 충분한 데이터를 확보하거나 필요한 컴퓨팅 성능을 활용하는 데 어려움을 겪는 경우가 많습니다. 이 시나리오를 염두에 두고 우리는 네트워크가 주로 대규모 컴퓨팅 리소스에 액세스하고 비용을 절감하는 것과 관련된 리소스에 대한 액세스를 민주화하는 데 큰 가치가 있음을 알 수 있습니다.
GPU 공급 문제
NVIDIA CEO Jensen Huang은 CES 2019에서 무어의 법칙은 끝났습니다라고 말했습니다. 오늘날의 GPU는 활용도가 매우 낮습니다. 딥 러닝/훈련 주기 중에도 GPU 활용도가 낮습니다.
다양한 워크로드에 대한 일반적인 GPU 사용률 수치는 다음과 같습니다.
유휴(Windows 운영 체제로 부팅한 직후): 0-2%
일반 생산성 작업(쓰기, 가벼운 탐색): 0-15%
비디오 재생: 15 - 35%
PC 게임: 25 - 95%
그래픽 디자인/사진 편집 활성 워크로드(Photoshop, Illustrator): 15 - 55%
비디오 편집(활성): 15 - 55%
비디오 편집(렌더링): 33 - 100%
3D 렌더링(CUDA/OptiX): 33 - 100%(Win 작업 관리자에서 자주 잘못 보고됨 - GPU-Z 사용)
GPU가 탑재된 대부분의 소비자 장치는 처음 세 가지 범주에 속합니다.

GPU 런타임 활용률(%) 출처: 가중치 및 편향
위의 상황은 컴퓨팅 리소스의 활용도가 낮다는 문제를 지적합니다.
GPU 활용도가 급증하는 경우에도 차선책인 소비자 GPU의 용량을 더 잘 활용할 필요가 있습니다. 이를 통해 앞으로 수행해야 할 두 가지 작업이 명확해졌습니다.
리소스(GPU) 집계
훈련 작업의 병렬화
사용할 수 있는 하드웨어 유형은 현재 4가지 유형이 제공됩니다.
· 데이터 센터 GPU(예: Nvidia A 100s)
· 소비자 GPU(예: Nvidia RTX 3060)
· 맞춤형 ASIC(예: Coreweave IPU)
· 소비자 SoC(예: Apple M 2)
ASIC(특정 목적으로 제작되었기 때문에) 외에도 다른 하드웨어를 함께 가져와 가장 효율적으로 활용할 수 있습니다. 이러한 칩 중 상당수가 소비자와 데이터 센터의 손에 있으므로 통합된 공급측 DePIN 모델이 좋은 방법이 될 수 있습니다.
GPU 생산량은 볼륨 피라미드입니다. 소비자 GPU가 가장 많이 생산하는 반면 NVIDIA A 100 및 H 100과 같은 프리미엄 GPU는 가장 적게 생산하지만 성능은 더 높습니다. 이러한 고급 칩은 소비자 GPU보다 생산 비용이 15배 더 높지만 때로는 15배의 성능을 제공하지 못하는 경우도 있습니다.
전체 클라우드 컴퓨팅 시장은 현재 약 4,830억 달러 규모이며, 향후 몇 년간 약 27%의 연평균 성장률로 성장할 것으로 예상됩니다. 2023년까지 ML 컴퓨팅 수요는 약 130억 시간이 될 것이며, 이는 현재 표준 비율로 2023년 ML 컴퓨팅에 지출되는 비용이 약 560억 달러에 해당합니다. 이 전체 시장도 빠르게 성장하고 있으며, 3개월마다 2배씩 성장하고 있습니다.
GPU 요구 사항
컴퓨팅 요구 사항은 주로 AI 개발자(연구원 및 엔지니어)에게서 나옵니다. 이들의 주요 요구 사항은 가격(저비용 컴퓨팅), 규모(대량 GPU 컴퓨팅), 사용자 경험(액세스 및 사용 용이성)입니다. 지난 2년 동안 GPU는 AI 기반 애플리케이션에 대한 수요 증가와 ML 모델 개발로 인해 엄청난 수요를 겪었습니다. ML 모델을 개발하고 실행하려면 다음이 필요합니다.
과도한 계산(여러 GPU 또는 데이터 센터에 대한 액세스부터)
병렬 실행을 위해 각 작업을 다수의 GPU에 배포하여 모델 교육, 미세 조정 및 추론을 수행하는 기능
컴퓨팅 관련 하드웨어 지출은 2021년 170억 달러에서 2025년 2,850억 달러(약 102% CAGR)로 증가할 것으로 예상되며, ARK는 컴퓨팅 관련 하드웨어 지출이 2030년까지 1조 7000억 달러(연간 복합 성장률 43%)에 이를 것으로 예상합니다.

ARK Research
혁신 단계에 있는 다수의 LLM과 경쟁으로 인해 더 많은 매개변수에 대한 계산 수요가 증가하고 재교육을 받게 되면서 앞으로도 고품질 계산에 대한 수요가 계속될 것으로 예상할 수 있습니다.
새로운 GPU 공급이 타이트해지면 블록체인은 어떤 역할을 하게 될까요?
리소스가 부족한 경우 DePIN 모델이 도움을 제공합니다.
공급 측면을 시작하고 대규모 공급을 생성합니다.
작업 조정 및 완료
작업이 올바르게 완료되었는지 확인하세요.
작업을 완료한 공급자에게 적절한 보상을 제공합니다.
모든 유형의 GPU(소비자, 기업, 고성능 등)를 집계하면 활용도에 문제가 발생할 수 있습니다. 컴퓨팅 작업을 분할할 때 A100 칩은 단순 계산을 수행해서는 안 된다. GPU 네트워크는 시장 진출 전략에 따라 네트워크에 포함되어야 한다고 생각하는 GPU 유형을 결정해야 합니다.
컴퓨팅 리소스 자체가 분산되는 경우(때로는 전역적으로) 어떤 유형의 컴퓨팅 프레임워크를 사용할지 사용자나 프로토콜 자체가 선택해야 합니다. io.net과 같은 공급자를 사용하면 사용자는 Ray, Mega-Ray의 3가지 컴퓨팅 프레임워크 중에서 선택하거나 Kubernetes 클러스터를 배포하여 컨테이너에서 컴퓨팅 작업을 수행할 수 있습니다. Apache Spark와 같은 더 많은 분산 컴퓨팅 프레임워크가 있지만 Ray가 가장 일반적으로 사용됩니다. 선택한 GPU가 계산 작업을 완료하면 출력이 재구성되어 훈련된 모델을 제공합니다.
잘 설계된 토큰 모델은 GPU 제공업체의 컴퓨팅 비용을 보조할 것이며, 많은 개발자(수요 측)는 이러한 방식이 더 매력적이라고 생각할 것입니다. 분산 컴퓨팅 시스템에는 본질적으로 대기 시간이 있습니다. 계산적 분해와 출력 재구성이 있습니다. 따라서 개발자는 모델 학습의 비용 효율성과 필요한 시간 사이에서 절충점을 찾아야 합니다.
분산 컴퓨팅 시스템에는 자체 체인이 필요합니까?
네트워크는 두 가지 방식으로 작동합니다.
작업(또는 컴퓨팅 주기) 또는 시간별로 요금 부과
시간단위로 부과
첫 번째 접근 방식에서는 Gensyn이 시도하는 것과 유사한 작업 증명 체인을 구축할 수 있습니다. 여기서 서로 다른 GPU가 작업을 공유하고 그에 대한 보상을 받습니다. 보다 신뢰할 수 없는 모델의 경우, 해결자가 생성한 증명을 기반으로 시스템의 무결성을 유지한 것에 대해 보상을 받는 검증자와 내부 고발자의 개념이 있습니다.
또 다른 작업 증명 시스템은 작업 분할 대신 전체 GPU 네트워크를 단일 슈퍼컴퓨터로 처리하는 Exabits입니다. 이 모델은 대규모 LLM에 더 적합한 것 같습니다.
Akash Network는 GPU 지원을 추가하고 이 공간에 GPU를 통합하기 시작했습니다. 상태(GPU 공급자가 수행한 작업 표시)에 대한 합의를 달성하기 위한 기본 L1, 마켓플레이스 계층, 사용자 애플리케이션의 배포 및 확장을 관리하기 위한 Kubernetes 또는 Docker Swarm과 같은 컨테이너 오케스트레이션 시스템이 있습니다.
시스템이 무신뢰라면 작업 증명 체인 모델이 가장 효과적입니다. 이는 프로토콜의 조정과 무결성을 보장합니다.
반면에 io.net과 같은 시스템은 자체적으로 체인으로 구성되지 않습니다. 그들은 GPU 가용성의 핵심 문제를 해결하고 시간 단위(시간당)별로 고객에게 요금을 부과하기로 결정했습니다. 본질적으로 GPU를 임대하고 특정 임대 기간 동안 원하는 대로 사용하기 때문에 검증 가능성 레이어가 필요하지 않습니다. 프로토콜 자체에는 작업 분할이 없지만 Ray, Mega-Ray 또는 Kubernetes와 같은 오픈 소스 프레임워크를 사용하는 개발자가 수행합니다.
Web2 및 Web3 GPU 클라우드
Web2에는 GPU 클라우드 또는 GPU 서비스 공간에 많은 플레이어가 있습니다. 이 분야의 주요 업체로는 AWS, CoreWeave, PaperSpace, Jarvis Labs, Lambda Labs, Google Cloud, Microsoft Azure 및 OVH Cloud가 있습니다.
이는 고객이 컴퓨팅이 필요할 때 시간 단위(보통 1시간) 단위로 GPU(또는 여러 개의 GPU)를 임대하는 전통적인 클라우드 비즈니스 모델입니다. 다양한 사용 사례에 대한 다양한 솔루션이 있습니다.
Web2와 Web3 GPU 클라우드의 주요 차이점은 다음 매개변수입니다.
1. 클라우드 설정 비용
토큰 인센티브로 인해 GPU 클라우드 설정 비용이 크게 절감됩니다. OpenAI는 컴퓨팅 칩 생산 자금을 조달하기 위해 1조 달러를 모금하고 있습니다. 토큰 인센티브가 없다면 시장 리더를 물리치려면 최소 1조 달러가 필요할 것으로 보입니다.
2. 계산 시간
Web3 GPU가 아닌 클라우드는 임대된 GPU 클러스터가 지리적 영역 내에 위치하기 때문에 더 빠르며, Web3 모델은 더 광범위하게 분산된 시스템을 가질 수 있으며 대기 시간은 비효율적인 문제 분할, 로드 밸런싱 및 가장 중요한 대역폭으로 인해 발생할 수 있습니다. .
3. 비용 계산
토큰 인센티브로 인해 Web3 컴퓨팅 비용은 기존 Web2 모델보다 훨씬 낮습니다.
계산 비용 비교:
이러한 GPU에 더 많은 공급 및 활용 클러스터를 사용할 수 있게 되면 이러한 숫자는 변경될 수 있습니다. Gensyn은 시간당 0.55달러의 저렴한 가격으로 A 100(및 이에 상응하는 제품)을 제공한다고 주장하며 Exabits는 유사한 비용 절감 구조를 약속합니다.
4. 규정 준수
무허가 시스템에서는 규정 준수가 쉽지 않습니다. 그러나 io.net, Gensyn 등과 같은 Web3 시스템은 스스로를 무허가 시스템으로 포지셔닝하지 않습니다. GPU 온보딩, 데이터 로딩, 데이터 공유 및 결과 공유 단계에서 GDPR 및 HIPAA와 같은 규정 준수 문제를 처리했습니다.
생태계
Gensyn、io.net、Exabits、Akash

위험
1. 수요위험
내 생각에 최고의 LLM 플레이어는 계속해서 GPU를 축적하거나 최고 성능이 2.8 exaFLOP/s인 NVIDIA의 Selene 슈퍼컴퓨터와 같은 GPU 클러스터를 사용할 것입니다. 그들은 GPU를 풀링하기 위해 소비자나 롱테일 클라우드 제공업체에 의존하지 않을 것입니다. 현재 최고의 AI 조직은 비용보다 품질을 놓고 경쟁하고 있습니다.
무겁지 않은 ML 모델의 경우 기존 GPU를 최적화하면서 서비스를 제공할 수 있는 블록체인 기반 토큰 인센티브 GPU 클러스터와 같은 더 저렴한 컴퓨팅 리소스를 찾을 것입니다. (위의 내용은 가정입니다. 해당 조직은 GPU를 사용하는 대신 자체 모델을 교육하는 것을 선호합니다. LLM)
2. 공급위험
ASIC 연구와 TPU(텐서 처리 장치)와 같은 발명에 막대한 자본이 쏟아져 나오면서 이 GPU 공급 문제는 저절로 사라질 수도 있습니다. 이러한 ASIC이 좋은 성능, 즉 비용 상충관계를 제공할 수 있다면 대규모 AI 조직이 비축해 두었던 기존 GPU가 시장으로 돌아올 수 있습니다.
블록체인 기반 GPU 클러스터가 장기적인 문제를 해결합니까? 블록체인은 GPU 이외의 모든 칩을 지원할 수 있지만 수요 측면에서 수행하는 작업에 따라 이 공간에서 프로젝트의 방향이 완전히 결정됩니다.
결론적으로
작은 GPU 클러스터가 있는 조각난 네트워크로는 문제가 해결되지 않습니다. 롱테일 GPU 클러스터를 위한 공간은 없습니다. GPU 제공업체(소매 또는 소규모 클라우드 플레이어)는 네트워크에 대한 인센티브가 더 좋기 때문에 더 큰 네트워크로 끌릴 것입니다. 다양한 컴퓨팅 유형을 지원하는 좋은 토큰 모델과 공급측 능력의 기능이 될 것입니다.
GPU 클러스터는 CDN과 유사한 집계 운명을 볼 수 있습니다. 대규모 플레이어가 AWS와 같은 기존 리더와 경쟁한다면 네트워크 지연 시간과 노드의 지리적 근접성을 줄이기 위해 리소스를 공유하기 시작할 수 있습니다.
수요 측면이 더 커지면(더 많은 모델을 훈련해야 하고 훈련해야 할 매개변수 수가 더 많아짐) Web3 플레이어는 공급 측면 비즈니스 개발에 매우 적극적이어야 합니다. 동일한 고객 기반에서 경쟁하는 클러스터가 너무 많으면 공급이 단편화되어(전체 개념이 무효화됨) 수요(TFLOP로 측정)가 기하급수적으로 증가합니다.
Io.net은 애그리게이터 모델로 시작하여 많은 경쟁사보다 두각을 나타냈습니다. 이들은 Render Network 및 Filecoin 채굴기의 GPU를 통합하여 용량을 제공하는 동시에 자체 플랫폼에서 공급을 부트스트래핑했습니다. 이것이 DePIN GPU 클러스터의 승리 방향이 될 수 있습니다.


