元のソース:Filecoin Network

編集者注: この記事は主に、パリで開催された 2023 Filecoin Unleashed カンファレンスでの David Aronchick のスピーチに基づいています。スピーチ。デビッドはExpansoを運営する Protocol Labs の CEO および元データ コンピューティング部門責任者Bacalhauプロジェクトの開始。この記事は元のコンテンツ作成者の独立した意見を表しており、再公開の許可が与えられています。
によるとIDC報告書によると、2025年までに世界中で保存されるデータ量は175ZBを超えるという。これは 1 GB の USB スティック 175 兆個に相当する膨大な量のデータです。このデータのほとんどは 2020 年から 2025 年の間に生成され、CAGR は 61% と予測されます。
今日の急速に成長するデータスフィアには、次の 2 つの大きな課題があります。
モバイルデータ通信は遅くて高価です。現在の帯域幅で 175 ZB のデータをダウンロードしようとすると、約 18 億年かかります。
コンプライアンスのタスクは面倒です。世界中にはデータ関連の規制が何百もあり、法域を超えて準拠することはほぼ不可能です。
ネットワークの成長の鈍化と規制上の制約が組み合わさった結果、次のことが起こります。機関データのほぼ 68%アイドル。そのため、データを計算する場所にデータを移動するのではなく、コンピューティング リソースをデータが保存されている場所に移動する (一般に「データ オーバー データの計算」と呼ばれます) ことが重要です。Bacalhauデータ計算待ち (CoD) プラットフォームが動作中です。
次の章では、以下について簡単に紹介します。
組織が今日データをどのように扱うか。
「データコンピューティング」に基づいた代替ソリューションを提案します。
最後に、分散コンピューティングがなぜ重要なのか仮説を立てます。
現状
現在、組織がデータ処理の課題に対処する主な方法は 3 つありますが、どれも理想的ではありません。
集中システムを使用する
最も一般的なアプローチは、大規模なデータ処理に集中システムを使用することです。 Adobe Spark、Hadoop、Databricks、Kubernetes、Kafka、Ray などのコンピューティング フレームワークを組み合わせて、集中化された API サーバーに接続されたクラスター化システムのネットワークを形成している組織をよく見かけます。ただし、これらのシステムは、ネットワーク侵害やデータ モビリティに関するその他の規制問題に効果的に対処することはできません。
これにより、データ侵害による組織への数十億ドルの行政罰金や罰金が発生しました。
自分で構築する
もう 1 つのアプローチは、開発者が政府機関が必要とする認識と堅牢性を備えたカスタム調整システムを構築することです。このアプローチは新しいものですが、システムの保守と実行を少数の人員に過度に依存するため、失敗のリスクに直面することがよくあります。
何もしない
驚くべきことに、ほとんどの場合、機関はデータを何も処理しません。たとえば、都市は毎日監視ビデオから大量のデータを収集できますが、コストが高いため、このデータはローカル マシンでのみ表示でき、アーカイブしたり処理したりすることはできません。
真の分散コンピューティングを構築する
データ処理の問題点に対する主な解決策は 2 つあります。
解決策 1: オープンソースのデータ コンピューティング プラットフォーム上に構築する
ソリューション 1: オープンソース データ コンピューティング プラットフォーム
開発者は、前述のカスタム調整システムの代わりに、オープンソースの分散データ プラットフォームを計算に使用できます。このプラットフォームはオープンソースで拡張可能なため、政府機関は必要なコンポーネントを構築するだけで済みます。このセットアップは、マルチクラウド、マルチコンピューティング、非データセンター アプリケーションのシナリオに対応し、複雑な規制環境に対処できます。重要なのは、オープン ソース コミュニティへのアクセスは、システム メンテナンスのために 1 人以上の開発者に依存しなくなり、障害の可能性が減少することです。
解決策 2: 分散データ プロトコルに基づいて構築する
Bacalhau や Lilypad のような高度なコンピューティング プロジェクトの助けを借りて、開発者はさらに一歩進んで、ソリューション 1 で言及したオープンソース データ プラットフォームだけでなく、Filecoin ネットワークのような真の分散型データ プロトコル上でもシステムを構築できます。
ソリューション 2: 分散データ コンピューティング プロトコル
これは、教育機関がユーザーの問題をより詳細に調整および説明する方法を理解する分散プロトコルを使用できることを意味し、データが生成および保存される場所に近いコンピューティング領域のロックを解除できます。データセンターから分散プロトコルへのこの変換は、データ サイエンティストの経験にわずかな変更を加えるだけで理想的に実行できます。
分散とは、選択が最大化されることを意味します
Filecoin ネットワークなどの分散プロトコルに導入することで、ユーザーが同じネットワーク上の異なる地域に分散された数百 (または数千) のマシンにアクセスし、他のマシンと同じプロトコル ルールに従うことができる、というのが私たちのビジョンです。これにより、データ サイエンティストはネットワークをリクエストできるため、基本的に選択肢が広がります。
世界中のどこからでもデータセットを選択できます。
HIPAA、GDPR、FISMA など、あらゆるガバナンス構造に従います。
できるだけ安く走りましょう。
Juan Triangle - デコード略語: FHE (Fully Homomorphic Encryption)、MPC (Multi-Party Computation)、TEE (Trusted Execution Environment)、ZKP (Zero-Knowledge Proof)
選択の最大化の概念と言えば、Protocol Labs の創設者が作った用語「フアンの三角形」について触れなければなりません。フアン・ベネト氏が説明する(将来的に) 異なるユースケースが異なる分散コンピューティング ネットワークによってサポートされる理由が作成されました。
Juan の Triangle は、コンピューティング ネットワークではプライバシー、検証可能性、パフォーマンスの間でトレードオフが必要になることが多く、従来の「フリーサイズ」アプローチをすべてのユースケースに適用するのは難しいと提案しています。その代わりに、分散プロトコルのモジュール式の性質により、さまざまな分散ネットワーク (またはサブネットワーク) が、プライバシー、検証可能性、パフォーマンスなど、さまざまなユーザーのニーズを満たすことができます。最終的には、何が重要だと考えるかに基づいて最適化します。それまでに、多くのパーティ サービス プロバイダー (三角形内のボックスで示されている) がこれらのギャップを埋め、分散コンピューティングを現実のものにするでしょう。
全体として、データ処理は、すぐに使えるソリューションを必要とする複雑な問題です。オープンソース データ コンピューティングを活用して従来の集中型システムを置き換えることは、良い第一歩です。最終的に、Filecoin ネットワークなどの分散プロトコル上にコンピューティング プラットフォームを展開することで、ユーザーの個々のニーズに応じてコンピューティング リソースを自由に構成できるようになります。これは、ビッグ データと人工知能の時代において非常に重要です。
注目してくださいCoDワーキンググループ、分散コンピューティング プラットフォームの最新開発に関する最新情報を入手してください。 Filecoin エコシステムの進歩について詳しく知りたい場合は、注目してください。ファイルコイン洞察ブログを入力し、ファイルコインの洞察 Twitter、Bacalhau、Lilypad、Expanso同様にCOD WGフォローしてください


