風險提示:防範以"虛擬貨幣""區塊鏈"名義進行非法集資的風險。——銀保監會等五部門
資訊
發現
搜索
登錄
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt
BTC
ETH
HTX
SOL
BNB
查看行情
ZONFF Research:當我們談Web3數據時,我們在談些什麼?
Zonff Partners
特邀专栏作者
2022-10-08 13:30
本文約8832字,閱讀全文需要約13分鐘
從數據的產生、收集、存儲、管理和使用的全生命週期來展開討論

原文作者:Lewis Liao,Zonff Partners

原文作者:Lewis Liao,

當我們在談Web3 數據的時候,在談些什麼?想要弄清楚這個問題,首先我們要弄清楚,在Web2 中數據是什麼樣的。本文將從數據的產生、收集、存儲、管理和使用的全生命週期來展開討論。在此之前,我們首先明晰數據是如何被定義的。

一級標題

image

一級標題

一級標題

圖片描述

圖片描述

image

圖片來源:Zonff Partners

圖片來源:Zonff Partners

圖片來源:Zonff Partners

最底層的數據庫存儲著來自於後端傳遞過來的,用戶與前端互動產生的數據。廣義上說,這些都是用戶數據。

  • 就移動端應用來說,數據大概可以分為以下幾類:

  • 用戶信息,用戶使用應用服務記錄下來的與用戶相關的信息,包括用戶的身份信息、設備、網絡、地理位置甚至移動設備上安裝的應用列表等,由服務端數據表和埋點進行收集;

  • 內容數據,用戶使用應用服務生產的數據,這些包括用戶任何主動在應用上交互寫入的非個人信息內容數據,屬於應用服務的一部分,一般由服務端數據表直接收集;

  • 行為數據,用戶使用應用期間交互產生的數據,這些包括用戶在使用應用期間的行為習慣,如觀看時長、點擊率、滲透率、滑動情況等等,一般由埋點進行收集;

  • 日誌數據,用戶使用應用期間應用本身產生的數據,這些包括應用的崩潰日誌等;

圖片描述

圖片描述

image
圖片描述

圖片描述

圖片來源:Preethi Kasireddy

與Web2 應用相比,用戶終端與前端是幾乎沒有什麼變化的,不一樣在於後端與數據庫。用戶通過前端與節點提供商互動(而不是某台中心化服務器),訪問佈置在以太坊等區塊鏈上的合約代碼(而不是服務器上的後端環境),並進行交互。在這個過程同樣會產生上述幾種類型的數據,由於技術架構的區別,Web3 產生的數據並不是由一台中心化服務器存儲,對於不同方式產生的數據其存儲的方式或有異同之處。

image

其中凡是智能合約交互產生的數據,都發佈在區塊鏈上,任何人可以都訪問,它因此成為一種公共產品,這些包括資產信息、交易數據和合約代碼。理論上,只要區塊鏈塊空間夠大,任何數據都可以存儲在區塊鏈上,甚至也有的項目在嘗試將區塊鏈作為數據庫來存儲數據。

目前階段,一個Web3 應用產生的數據,除以上三類數據以外,大多數仍然採用中心化服務器的存儲方式,這些包括前端代碼、用戶信息、內容數據、行為數據和日誌數據。這是由於目前相關存儲基礎設施並不完善,項目方或受限於技術問題,或為了保證訪問速度等原因採取了中心化方案。隨著基礎設施的不斷發展,有很多功能越來越強大的存儲基建的出現,如IFPS、Stroj、Filecoin 和Ceramic 等,也有越來越多應用已經開始將自身部署在去中心化存儲上面,如將前端網站佈置在IPFS 上然後通過ENS 訪問,從而搭建一個去中心化網站前端以及將NFT 項目對應的圖片等文件數據用Arweave 進行永存等等。

  • 總的來說,在搭建一個Web3 應用的時候,對於應用數據的存儲,開發人員通常可以有3 種選擇:

  • 將其存在區塊鏈上,這種選擇非常昂貴,會導致應用盡可能的簡單,並且數據完全公開,好處是最為直接保護了應用主權;

  • 一級標題

一級標題

一級標題

1.2 趨勢:去中心化存儲- 數據和應用主權"right to data"當談到搭建Web3 應用的3 種方式時,這有一個關鍵詞:主權(sovereign)。這個詞是當我們聊到Web3 的特點時一個繞不開的話題,一般來說會包括數據主權和應用主權。那麼主權重要嗎?這是另一個話題,本文不作探討,感興趣可以閱讀相關文章,如「Web3 數據市場展望」和「Web3 - Let the

awaken」。這裡想從數據的角度,切入Web3 主權確立的必經之路,並推演基礎設施發展的方向和重點。

關於數據主權,包括數字資產主權和用戶數據主權,「 縱向流動性:價值如何互聯互通」一文中有談到關於代幣可以定義用戶的數字資產主權(身份、關係與物權),這是由一個難以篡改的廣泛共識所決定的。最基礎的,這些權利的定義由區塊鏈本身就能完成,如一個代幣歸屬於哪一個地址。可一旦涉及到更複雜的數字產品權利歸屬,就會有很多問題出現,比較典型的就是NFT 對應的圖片(或文章等)的存儲問題,「NFT:數字所有權的革命」中對這個問題進行過討論。大多數NFT 的現狀是其對應的數字產品存儲在某個地方的中心化服務器上,一旦服務器崩潰或者被黑,那麼用戶所擁有的就只是一串鏈上哈希,哈希背後真正的“物品” 則隨時可以被偷竊或者替換,變得毫無價值。

此外,用戶數據主權作為Web2 與Web3 最為明顯的分界線之一,是為Web3 創新與進步所吶喊的旗幟。就此,Ceramic 設想了一個數據宇宙,一個可組合的、網絡級規模的數據生態系統,由每個人擁有,但不被任何人獨有。用戶數據跟隨用戶從一個應用到另一個應用,用戶作為中心控制自己的數字宇宙。目前,幾乎還沒有應用可以實現這一點,Cyberconnect 作出了很好的嘗試,它創造了一個去中心化社交圖譜協議,希望在應用間實現用戶社交關係數據的可互操作性。但目前來講,該應用並沒有保證用戶的數據主權,儘管他們已經開始轉移到Ceramic 之上進行建設,但一切仍然還在路上。

關於應用主權,有人把主權應用稱為“超級結構”,它擁有不可停止、免費、有價值、可擴展、無許可、正外部性和可信中立等特徵,這些綜合起來提供了一個數字世界的公共產品,打造了“元宇宙”(如果你信的話)的基礎設施。目前絕大多數所謂Web3 的應用其應用主權程度都不高,它們不是真正的公共產品,它們可以很容易被強權制裁與改變,Tornado Cash 事件非常直接地說明了這個問題。主要原因之一是因為雖然這些應用協議層的合約代碼都發佈在區塊鏈上,但如前端、域名等組件仍然由第三方中心化的實體所控制。

  • 為了實現數據主權和應用主權,Web3 應用的構建方式至關重要,其基礎出發點就是存儲,數據存在哪裡,怎麼存才能保證用戶能夠擁有主權?總的來說,根據用戶的數據類型不同,可以有不同的解決方案:

  • 用戶的資產信息、交易數據應為公共賬本數據,存在鏈上保證可驗證性是最重要的,但Aztec 這樣的應用出現用來保障用戶鏈上交易的隱私性是非常有價值的;

  • 用戶的用戶信息、內容數據和行為數據作為個人信息,保證用戶的控制權非常重要,在用戶的同意之下,可以選擇性對這些數據進行公開,作為公共產品以發掘正外部性;

日誌數據和代碼數據作為法人數據,私有化是可以接受的,也有一定的必要性,但涉及到“超級建築” 類的Web3 基礎設施類應用,它應當具有公共基礎設施的特性,應用代碼的存儲應當公開且具備超過平台級的抗審查能力;

目前,大多數Web3 應用採用「將智能合約邏輯存在區塊鏈上,其他存在傳統後端上」的原因是目前沒有足夠好用的去中心化基礎設施可以替代原本的中心化基礎設施方案。

圖片描述

圖片描述

image

圖片描述

一級標題

一級標題

一級標題

2.1 數據的管理

將Web3 應用建立在去中心化存儲之上,使得他們更加不容易被外力干擾,打破了壟斷與強權。但僅僅是存儲還不夠,還需要存儲環境的渲染計算、數據處理、權限配置和隱私保護等等技術的支持,才能夠保證應用的主權、用戶的數據主權,從而實現數字世界個人主權的崛起。尤其是權限控制和隱私保護問題,它們應該用一個高級別的主權技術方案實現。 Web2 應用中這些級別數據都是按照不同的安全防護級別,保存在某些具體的中心化服務器上,其安全性由網絡安全保障,其主權性由平台保障(如企業平台、政府平台等等) 。這種數據管理模式下,用戶服從於超級管理員,對於數據本身,用戶沒有任何權利。此外,數據安全也受制於超級管理員這一中心化實體,如前段時間某地區的公安數據洩露事件,一個超級管理員將其私鑰洩露,使得上億人的個人私密信息洩露。

  • Web3 的數據管理應當具有以下兩大特性:

  • 數據主權保障。這應該是超越平台級的甚至是世界級的,通過世界級的共識保障數字世界用戶共同的權力。傳統世界這方面的保障是平台級的,而且規則來自於非共識,一家平台級公司就可以掌控所有的規則制度,並隨時可以更改,從而隨時可以侵犯用戶個人主權;

數據隱私保障。通過密碼學從數學上對用戶數據隱私安全進行保障,而不是通過數據庫網絡安全的方式進行保護,用戶控制的選擇性加密是用戶數據主權的基本權利之一;

image

如何對Web3 數據進行管理,取決於該數據是如何存儲的。

IPFS 和Filecoin 以內容為中心,通過Content ID(CID)來訪問存儲的內容,在此基礎之上通過搭建第三方應用進行數據管理,如通過ChainSafe Files,可以本地化方式解決單點登錄問題後,可以方便地通過非對稱加密對數據進行加密存儲。以內容為中心的管理模式,使得用戶管理變得困難,如何給數據定所有權變得較為複雜。 Filecoin 除了提供存儲之外,它的生態的拓展性會比其他的底層來說要高得多。特別是接下來FVM 推出之後,可能會有一些針對數據存儲數據檢索方面的一些垂直領域推出特色的工具,能幫助用戶幫助企業更好地去管理它的一些數據,保證數據的安全,然後開發很多的一些新的應用。

一級標題

一級標題

二級標題

二級標題

二級標題

Ceramic 的數據模型市場

Ceramic 在其數據宇宙中提到了他們要打造的開放數據模型市場,因為數據需要互操作性,它能夠極大地促進生產力的提升。這樣的數據模式市場是通過對數據模型的緊急共識實現的,就類似於以太坊中的ETC 合約標準,開發人員可以從中選擇作為功能模板,從而擁有一個符合該數據模型的所有數據的應用程序。目前來說,這樣的市場並不是一個交易市場。

  • 關於數據模型,一個簡單的例子是,在去中心化社交網絡當中,數據模型可以簡化為4 個參數,分別是:

  • PostList:存儲用戶帖子的索引

  • Post:存儲單個帖子

  • Profile:存儲用戶的資料

FollowList:存儲用戶的關注列表

那麼數據模型如何在Ceramic 上進行創建、共享和重用,從而實現跨應用程序數據互操作性呢?

二級標題

二級標題

圖片描述

圖片描述

image

圖片描述

圖片描述

image

一級標題

一級標題

一級標題

3.1 數據的使用與堆棧

  • 基於以上內容的理解,我們提出了Web3 數據堆棧,見下圖,

  • 圖片描述

  • 圖片描述

image

圖片來源:Zonff Partners

圖片來源:Zonff Partners

圖片來源:Zonff Partners

目前行業內關於Web3 的數據使用,絕大多數是鏈上數據,層出不窮的數據分析工具與索引工具出現,鏈上數據這個巨大的金礦已經被充分地挖掘,上圖的數據表和分析應用分類中絕大多數都是鏈上數據的挖掘,只有少部分涉及到鏈下數據。總的來說,數據的使用鏈路是一個ETLA(Extract、Transform、Load、Analysis)的過程,每個節點上都具有代表性的項目。提取(Extract)項目的代表是The Graph,而轉換(Transform)成可用數據表和加載(Load)環節的項目代表是Dune 和Luabsae,分析(Analysis)的代表是Nansen 和NFTGO。

而在去中心化存儲上ETLA 整個流程的支持項目幾乎還是荒漠,只有一些提取類項目,這裡存在巨大的機遇和挑戰。 The Graph 和Ceramic 社區本身正致力於提取Ceramic 上的數據,Orbis 的創始人也嘗試做了一個Cerscan 用於瀏覽Ceramic 上的數據。 Arweave 已經可以通過The Graph 用子圖讀取和管理Arweave 存儲的數據,Filecoin 上也有相關第三方項目在做這件事情。但TLA 的過程目前還無人問津,其中最大的原因是存儲在不同去中心化存儲上的數據異質性很高,很難有一個統一的模式去挖掘這些數據的價值,其中最有希望踏出這一步的是Ceramic,這是因為其數據模型的存在使得Ceramic 上數據的異質性指數級降低,從而使得數據的可利用性變得更高。

除了鏈上數據以外,還有很多項目在嘗試將鏈上數據與鏈下數據進行打通,這類項目可以看作為“鏈改” 型項目。

  • 類型分類有:

  • Web2 數據主權賦予與交易市場:Itheum、Navigate、Swash 和Phyllo 等。這類項目主要是將傳統互聯網數據與鏈上數據相結合,希望把Web2 與Web3 之間的信息交互打通,常見做法是將Web2 數據導出再導入指定數據池或者直接綁定傳統互聯網社交賬號等等;

  • 企業數據共識:Authtrail,該項目通過與企業內部數據庫進行整合,加入共識層從而做到企業內數據的防篡改與可追踪等;

鏈上與鏈下數據組合:Space and Time,該項目和Authtrail 一樣會做鏈下數據庫的整合,但無共識層,更多是鏈下與鏈上數據的共同計算,此外Pool 也在做類似的事情;

Web3 數據的使用範式和Web2 存在明顯的不同,其主要在於數據聚集在一起的方式,即不同類型的數據其存儲、索引、提取、整合和利用的方式都會存在差別。根據前文的分類,這裡做一些簡單的總結:

公開數據:包括《網絡安全標準實踐指南- 數據分類分級指引》分類中的公共數據和部分法人數據。作為公共產品,是可以被公開挖掘價值的數據,接入無需許可,但可以追溯用戶所有權,從而追溯空投分潤,典型的例子是鏈上數據和存儲在去中心化存儲上的非加密應用數據(如用戶帖子、點贊和評論等)。其使用最重要的上游支持是索引應用,如The Graph,或Web3 原生數據庫的應用,如Tableland。

Web3.0