Nguồn chính thức:Filecoin Network

Lưu ý của biên tập viên: Bài viết này chủ yếu dựa trên bài trình bày của David Aronchick tại hội nghị Filecoin Unleashed Paris 2023lời nói. David làExpansoGiám đốc điều hành và cựu Giám đốc Máy tính Dữ liệu tại Phòng thí nghiệm Giao thức, chịu trách nhiệm vềBacalhauDự án ban đầu. Bài viết này thể hiện quan điểm độc lập của người sáng tạo nội dung gốc và đã được tái bản với sự cho phép.
dựa theoIDCTheo báo cáo, đến năm 2025, lượng dữ liệu được lưu trữ trên thế giới sẽ vượt quá 175 ZB. Đó là một lượng dữ liệu khổng lồ, tương đương với 175 nghìn tỷ chiếc USB 1 GB. Hầu hết dữ liệu này được tạo ra từ năm 2020 đến năm 2025, với tốc độ CAGR dự kiến là 61%.
Kho dữ liệu đang phát triển nhanh chóng ngày nay đặt ra hai thách thức lớn:
Dữ liệu di động chậm và tốn kém.Nếu bạn cố tải xuống 175 ZB dữ liệu với băng thông hiện tại thì sẽ mất khoảng 1,8 tỷ năm.
Nhiệm vụ tuân thủ là khó khăn.Có hàng trăm quy định liên quan đến dữ liệu trên khắp thế giới, khiến việc tuân thủ giữa các khu vực pháp lý gần như không thể thực hiện được.
Kết quả tổng hợp của sự tăng trưởng mạng lưới chậm chạp và những hạn chế về quy định là,Gần 68% dữ liệu của tổ chứcNhàn rỗi. Đó là lý do tại sao việc di chuyển tài nguyên máy tính đến nơi lưu trữ dữ liệu (được gọi rộng rãi là tính toán trên dữ liệu) lại quan trọng hơn là di chuyển dữ liệu đến nơi dữ liệu được tính toán.BacalhauĐang chờ tính toán dữ liệu (CoD) nền tảng đang hoạt động trên nó.
Trong các chương tiếp theo, chúng tôi sẽ giới thiệu ngắn gọn:
Cách các tổ chức xử lý dữ liệu ngày nay.
Đề xuất giải pháp thay thế dựa trên “điện toán dữ liệu”.
Cuối cùng, hãy đưa ra giả thuyết tại sao tính toán phân tán lại quan trọng.
hiện trạng
Hiện tại, có ba cách chính mà các tổ chức đang giải quyết các thách thức xử lý dữ liệu, không có cách nào là lý tưởng.
Sử dụng hệ thống tập trung
Cách tiếp cận phổ biến nhất là sử dụng các hệ thống tập trung để xử lý dữ liệu quy mô lớn. Chúng ta thường thấy các tổ chức kết hợp các framework tính toán như Adobe Spark, Hadoop, Databricks, Kubernetes, Kafka, Ray, v.v. để tạo thành một mạng lưới các hệ thống phân cụm được kết nối với máy chủ API tập trung. Tuy nhiên, các hệ thống này không giải quyết hiệu quả các vi phạm mạng và các vấn đề pháp lý khác xung quanh việc di chuyển dữ liệu.
Điều này một phần đã dẫn đến hàng tỷ đô la tiền phạt hành chính và hình phạt cho các tổ chức do vi phạm dữ liệu.
Tự mình xây dựng nó
Một cách tiếp cận khác là dành cho các nhà phát triển xây dựng các hệ thống điều phối tùy chỉnh có nhận thức và tính mạnh mẽ mà các tổ chức cần. Cách tiếp cận này mới lạ nhưng thường có nguy cơ thất bại do phụ thuộc quá nhiều vào một số ít người để duy trì và vận hành hệ thống.
Không làm gì cả
Đáng ngạc nhiên là phần lớn các tổ chức không làm gì với dữ liệu của họ. Ví dụ: một thành phố có thể thu thập một lượng lớn dữ liệu từ video giám sát mỗi ngày, nhưng do chi phí cao nên dữ liệu này chỉ có thể được xem trên máy cục bộ và không thể lưu trữ hoặc xử lý.
Xây dựng điện toán phân tán thực sự
Có hai giải pháp chính cho các điểm khó xử lý dữ liệu.
Giải pháp 1: Xây dựng trên nền tảng điện toán dữ liệu nguồn mở
Giải pháp 1: Nền tảng tính toán dữ liệu nguồn mở
Các nhà phát triển có thể sử dụng nền tảng dữ liệu phân tán nguồn mở để tính toán thay vì các hệ thống điều phối tùy chỉnh được đề cập trước đó. Vì nền tảng này là nguồn mở và có thể mở rộng nên các tổ chức chỉ cần xây dựng các thành phần họ cần. Thiết lập này đáp ứng các kịch bản nhiều đám mây, nhiều máy tính, không phải trung tâm dữ liệu và có thể điều hướng các môi trường pháp lý phức tạp. Điều quan trọng là quyền truy cập vào cộng đồng nguồn mở không còn phụ thuộc vào một hoặc nhiều nhà phát triển để bảo trì hệ thống, giảm khả năng xảy ra lỗi.
Giải pháp 2: Xây dựng trên giao thức dữ liệu phân tán
Với sự trợ giúp của các dự án điện toán tiên tiến như Bacalhau và Lilypad, các nhà phát triển có thể tiến thêm một bước nữa và xây dựng hệ thống không chỉ trên nền tảng dữ liệu nguồn mở được đề cập trong Solution One mà còn trên các giao thức dữ liệu phân tán thực sự như mạng Filecoin.
Giải pháp 2: Giao thức tính toán dữ liệu phân tán
Điều này có nghĩa là các tổ chức có thể sử dụng các giao thức phân tán để hiểu cách phối hợp và mô tả các vấn đề của người dùng theo những cách chi tiết hơn, mở khóa các lĩnh vực điện toán gần nơi dữ liệu được tạo và lưu trữ. Lý tưởng nhất là việc chuyển đổi từ trung tâm dữ liệu sang giao thức phân tán này có thể được thực hiện chỉ với những thay đổi nhỏ đối với trải nghiệm của nhà khoa học dữ liệu.
Lựa chọn phương tiện phân phối được tối đa hóa
Bằng cách triển khai trên giao thức phân tán như mạng Filecoin, tầm nhìn của chúng tôi là người dùng có thể truy cập hàng trăm (hoặc hàng nghìn) máy được phân phối ở các vùng khác nhau trên cùng một mạng và tuân theo các quy tắc giao thức giống như các máy khác. Về cơ bản, điều này mở ra nhiều lựa chọn cho các nhà khoa học dữ liệu, vì họ có thể yêu cầu mạng:
Chọn một tập dữ liệu từ bất cứ nơi nào trên thế giới.
Tuân thủ mọi cấu trúc quản trị, cho dù đó là HIPAA, GDPR hay FISMA.
Chạy càng rẻ càng tốt.
Tam giác Juan - Giải mã các từ viết tắt: FHE (Mã hóa hoàn toàn đồng hình), MPC (Tính toán đa bên), TEE (Môi trường thực thi tin cậy), ZKP (Bằng chứng không có kiến thức)
Nói đến khái niệm tối đa hóa quyền chọn phải kể đến “tam giác Juan”, một thuật ngữ do người sáng lập Protocol Labs đặt ra.Juan Benet giải thíchĐược tạo khi tại sao các trường hợp sử dụng khác nhau (trong tương lai) sẽ được hỗ trợ bởi các mạng máy tính phân tán khác nhau.
Tam giác của Juan đề xuất rằng các mạng máy tính thường yêu cầu sự cân bằng giữa quyền riêng tư, khả năng xác minh và hiệu suất và cách tiếp cận một kích thước phù hợp với tất cả truyền thống rất khó áp dụng cho mọi trường hợp sử dụng. Thay vào đó, bản chất mô-đun của các giao thức phân tán cho phép các mạng phân tán (hoặc mạng con) khác nhau đáp ứng các nhu cầu khác nhau của người dùng—cho dù đó là quyền riêng tư, khả năng xác minh hay hiệu suất. Cuối cùng, chúng tôi tối ưu hóa dựa trên những gì chúng tôi cho là quan trọng. Đến lúc đó, sẽ có nhiều nhà cung cấp dịch vụ bên (được hiển thị dưới dạng các hộp trong hình tam giác) lấp đầy những khoảng trống này và biến điện toán phân tán thành hiện thực.
tất cả trong tất cả,Xử lý dữ liệu là một vấn đề phức tạp đòi hỏi các giải pháp vượt trội. Tận dụng điện toán dữ liệu nguồn mở để thay thế các hệ thống tập trung truyền thống là bước đi đầu tiên tốt. Cuối cùng, bằng cách triển khai nền tảng điện toán trên giao thức phân tán như mạng Filecoin, tài nguyên máy tính có thể được cấu hình tự do theo nhu cầu cá nhân của người dùng, điều này rất quan trọng trong kỷ nguyên dữ liệu lớn và trí tuệ nhân tạo.
Làm ơn chú ýNhóm làm việc CoD, luôn cập nhật tất cả những phát triển mới nhất trong nền tảng điện toán phân tán. Để tìm hiểu thêm về tiến trình của hệ sinh thái Filecoin, vui lòng chú ýBlog thông tin chi tiết về Filecoin, và nhậpTwitter thông tin chi tiết về Filecoin、Bacalhau、Lilypad、Expansocũng nhưCOD WGTheo dõi chúng tôi tại.


