BTC
ETH
HTX
SOL
BNB
查看行情
简中
繁中
English
日本語
한국어
ภาษาไทย
Tiếng Việt

Footprint Analytics x Future3萬字研究:AI與Web3資料產業融合的現狀、競爭格局與未來機會探析(上)

Footprint
特邀专栏作者
2023-12-09 07:00
本文約12605字,閱讀全文需要約19分鐘
在本文中,我們將重點探討如何運用AI 的技術,去提升Web3 資料的生產效率以及使用體驗。
AI總結
展開
在本文中,我們將重點探討如何運用AI 的技術,去提升Web3 資料的生產效率以及使用體驗。

GPT 的橫空出世將全球的目光吸引至大語言模型,各行各業都嘗試著利用這個「黑科技」提高工作效率,加速產業發展。 Future 3 Campus 攜手Footprint Analytics 共同深入研究AI 與Web3結合的無限可能,共同發布了《AI 與Web3數據產業融合現狀、競爭格局與未來機會探析》研發。研究期刊分為上下兩篇,本文為上篇,由Footprint Analytics 研究員Lesley、Shelly 共同編撰。下篇由Future 3 Campus 研究員Sherry、Humphrey 共同編撰。

摘要:

  • LLM 技術的發展讓人們更加關注AI 與Web3 的結合,新的應用範式正在逐步展開。本文中,我們將著重於如何運用AI 提升Web3 資料的使用體驗與生產效率。

  • 由於業界尚處早期階段和區塊鏈技術的特性,Web3 資料產業面臨許多挑戰,包括資料來源、更新頻率、匿名屬性等,使得利用AI 解決這些問題成為新關注點。

  • LLM 相對於傳統人工智慧的可擴展性、適應性、效率提升、任務分解、可訪問性和易用性等優勢,為提高區塊鏈資料的體驗和生產效率提供了想像空間。

  • LLM 需要大量高品質資料進行訓練,而區塊鏈領域垂直知識豐富且資料公開,可以為LLM 提供學習素材。

  • LLM 也可以幫助生產和提升區塊鏈資料的價值,例如資料清洗、標註、產生結構化資料等。

  • LLM 不是萬靈藥,需要針對特定業務需求進行應用。既要利用LLM 的高效率,同時也要注意結果的準確性。

1. AI 與Web3 的發展與結合

1.1. AI 的發展史

人工智能(AI)的歷史可以追溯到上個世紀50 年代。自1956 年起,人們開始關注人工智慧這一領域,並逐漸發展了早期的專家系統,幫助專業領域解決問題。此後,機器學習的興起,拓展了AI 的應用領域,AI 開始更廣泛地應用在各行各業。到如今,深度學習和生成式人工智能爆發,給了人們無限可能性,其中的每一步都充滿了不斷的挑戰與創新,以追求更高的智慧水平和更廣泛的應用領域。

圖1 :AI 發展歷程

2022 年11 月30 日,ChatGPT 面世,首次展示了AI 與人類低門檻、高效率互動的可能性。 ChatGPT 引發了對人工智能的更廣泛探討,重新定義了與AI 互動的方式,使其變得更加高效、直觀和人性化,也推動了人們對更多生成式人工智能的關注,Anthropic(Amazon) 、DeepMind(Google)、Llama 等模型也隨後進入人們的視野。與此同時,各行各業的從業者也開始積極探索AI 會如何推動他們所在領域的發展,或者尋求通過與AI 技術的結合在行業中脫穎而出,進一步加速了AI 在各個領域的滲透。

1.2. AI 與Web3 的交融

Web3 的願景從改革金融體系開始,旨在實現更多的使用者權力,並有望引領現代經濟和文化的轉變。區塊鏈技術為實現這一目標提供了堅實的技術基礎,它不僅重新設計了價值傳輸和激勵機制,還為資源分配和權力分散提供了支持。

圖2 :Web3 發展歷程

早在2020 年,區塊鏈領域的投資公司Fourth Revolution Capital(4 RC)就曾指出,區塊鏈技術將和AI 結合,透過對金融、醫療、電子商務、娛樂等全球產業的去中心化,以實現對現有產業的顛覆。

目前,AI 與Web3 的結合,主要是兩大方向:

● 利用AI 去提升生產力以及使用者體驗。

● 結合區塊鏈透明、安全、去中心化儲存、可追溯、可驗證的技術特點,以及Web3 去中心化的生產關係,解決傳統技術無法解決的痛點或激勵社區參與,提高生產效率。

市場上AI 與Web3 的結合有以下的一些探索方向:

圖3 :AI 與Web3 結合全景圖

● 資料:區塊鏈技術可應用在模型資料儲存上,提供加密資料集,保護資料隱私和記錄模型使用資料的來源、使用情況,以及校驗資料的真實性。通過存取和分析儲存在區塊鏈上的數據,AI 可以提取有價值的信息,並用於模型訓練和優化。同時,AI 也可以作為資料生產工具,去提升Web3 資料的生產效率。

●演算法:Web3 中的演算法可以為AI 提供更安全、可信任和自主控制的運算環境,為AI 體統提供加密保障,在模型參數上,內嵌安全防護欄,防止系統被濫用或惡意操作。 AI 可以與Web3 中的演算法進行交互,例如利用智慧合約執行任務、驗證資料和執行決策。同時,AI 的算法也可以為Web3 提供更智慧化和高效的決策和服務。

● 算力:Web3 的分散式運算資源可以為AI 提供高效能的運算能力。 AI 可以利用Web3 中的分散式運算資源進行模型的訓練、資料分析和預測。透過將運算任務分發到網路上的多個節點,AI 可以加快運算速度,並處理更大規模的資料。

在本文中,我們將重點探討如何運用AI 的技術,去提升Web3 資料的生產效率以及使用體驗。

2. Web3 資料現狀

2.1. Web2 Web3 資料產業對比

作為AI 最核心的組成部分“數據”,在Web3 跟我們熟悉的Web2 很有很多的區別。差異主要在於Web2 以及Web3 本身的應用架構導致其產生的資料特徵有所不同。

2.1.1. Web2 Web3 應用架構對比

圖4 :Web2 Web3 應用架構

在Web2 架構中,通常是由單一實體(通常是一家公司)來控製網頁或APP,公司對於他們構建的內容有著絕對的控制權,他們可以決定誰可以訪問其服務器上的內容和邏輯,以及用戶擁有怎樣的權益,也可以決定這些內容在網路上存在的時間長度。許多案例表明,網路公司有權改變其平台上的規則,甚至中止為用戶提供服務,而用戶對此無法保留所創造的價值。

而Web3 架構則藉助了通用狀態層(Universal State Layer)的概念,將一部分或全部的內容和邏輯放置在公共區塊鏈上。這些內容和邏輯是公開記錄在區塊鏈上的,可供所有人訪問,用戶可以直接控制鏈上內容和邏輯。而在Web2 中,使用者需要帳戶或API 金鑰才能與區塊鏈上的內容互動。使用者可以直接控制其對應的鏈上內容和邏輯。有別於Web2,Web3 使用者無需授權帳號或API 金鑰就能與區塊鏈上的內容互動(特定管理作業除外)。

2.1.2. Web2 與Web3 資料特徵對比

圖5 :Web2 與Web3 資料特徵對比

Web2 資料通常表現為封閉且高度受限的,具有復雜的權限控制,高度成熟、多種資料格式、嚴格遵循行業標準,以及復雜的業務邏輯抽象化。這些資料規模龐大,但互通性相對較低,通常儲存在中央伺服器上,且不注重隱私保護,大多數是非匿名的。

相較之下,Web3 資料更加開放,存取權限更廣泛,儘管成熟度較低,以非結構化資料為主,標準化較為罕見,業務邏輯抽象相對簡化。 Web3 的數據規模相對Web2 較小,但它具有較高的互通性(例如EVM 相容),並可分散或集中儲存數據,同時強調用戶隱私,用戶通常採用匿名方式進行鏈上互動。

2.2. Web3 資料產業現狀與前景,以及遇到的挑戰

在Web2 時代,數據如石油的「儲量」般珍貴,存取和獲取大規模數據一直是極大的挑戰。在Web3 中,數據的開放性和共享性一下子讓大家覺得“石油到處都是”,使得AI 模型能夠更輕鬆地獲取更多的訓練數據,這對於提高模型性能和智能水平至關重要。但對Web3 這個「新石油」 的資料處理仍有許多問題待解決,主要有以下幾個:

● 資料來源:鏈上資料「標準」繁雜分散,資料處理花費大量人工成本

處理鏈上資料時,需要重複執行耗時且勞動密集的索引過程,需要開發者和資料分析師花費大量時間和資源來適應不同鏈、不同項目之間的資料差異。鏈上資料產業缺乏統一的生產和處理標準,除了記錄到區塊鏈帳本上的,events,logs,and traces 等基本上都是項目自己定義和生產(或產生)的,這導致非專業交易者很難辨別並找到最準確和可信的數據,增加了他們在鏈上交易和投資決策中的困難。例如,去中心化交易所Uniswap 和Pancakeswap 就有可能在資料處理方法和資料口徑上有差異,流程中的檢查和統一口徑等工序進一步加大了資料處理的複雜性。

● 資料更新:鏈上資料體積大且更新頻率高,難以及時處理成結構化資料

區塊鍊是時刻變動的,數據更新以秒甚至毫秒計。數據的頻繁產生和更新使其難以維持高品質的數據處理和及時的更新。因此,自動化的處理流程是十分重要的,這也是對於資料處理的成本和效率的一大挑戰。 Web3 資料產業仍處於初級階段。隨著新合約的層出不窮和迭代更新,資料缺乏標準、格式多樣,進一步增加了資料處理的複雜性。

● 資料分析:鏈上資料的匿名屬性,導致資料身分難以區分

鏈上資料通常不包含足夠的資訊來清楚識別每個地址的身份,這使得資料在與鏈下的經濟、社會或法律動向難以連動。但是鏈上資料的動向與現實世界緊密相關,了解鏈上活動與現實世界中特定個體或實體的關聯性對於特定的場景例如資料分析來說十分重要。

隨著大語言模型(LLM)技術引發的生產力變更討論,能否利用AI 來解決這些挑戰也成為Web3 領域的一個焦點關注之一。

3. AI 與Web3 數據碰撞產生的化學反應

3.1. 傳統AI 與LLM 的特徵對比

在模型訓練方面,傳統AI 模型通常規模較小,參數數量在數萬到數百萬之間,但為了確保輸出結果的準確性,需要大量的人工標註資料。 LLM 之所以如此強大,部分原因在於其使用了海量的語料擬合百億、千億級以上的參數,極大地提升了它對自然語言的理解能力,但這也意味著需要更多的數據來進行訓練,訓練成本相當高。

在能力範圍和運作方式上,傳統AI 更適合特定領域的任務,能夠提供相對精準和專業的答案。相較之下,LLM 更適合通用性任務,但容易產生幻覺問題,這意味著在某些情況下,它的答案可能不夠精確或專業,甚至完全錯誤。因此,如果需要和客觀,可信任,和可以追溯的結果,可能需要進行多次檢查、多次訓練或引入額外的糾錯機制和框架。

圖6 :傳統AI 與大模型語言模型(LLM)的特徵對比

3.1.1. 傳統AI 在Web3 資料領域的實踐

傳統AI 在區塊鏈資料產業中已經展現了其重要性,為這一領域帶來了更多創新和效率。例如,0x Scope 團隊採用AI 技術,建立了基於圖計算的群集分析算法,透過不同規則的權重分配來幫助準確識別使用者之間的相關地址。這種深度學習算法的應用提高了地址群集的準確性,為數據分析提供了更精確的工具。 Nansen 則將AI 用於NFT 價格預測,透過資料分析和自然語言處理技術,提供有關NFT 市場趨勢的見解。另一方面,Trusta Labs 使用了基於資產圖譜挖掘和用戶行為序列分析的機器學習方法,以增強其女巫檢測解決方案的可靠性和穩定性,有助於維護區塊鍊網絡生態的安全。另一方面,Trusta Labs 採用了圖探和使用者行為分析的方法,以增強其女巫檢測解決方案的可靠性和穩定性,有助於維護區塊鍊網絡的安全。 Goplus 在其營運中利用傳統人工智能來提高去中心化應用程式(dApps)的安全性和效率。他們收集和分析來自dApp 的安全訊息,提供快速風險警報,幫助降低這些平台的風險敞口。這包括通過評估開源狀態和潛在惡意行為等因素來檢測dApp 主合約中的風險,以及收集詳細的審計信息,包括審計公司憑證、審計時間和審計報告鏈接。 Footprint Analytics 則使用AI 產生生產結構化資料的代碼,分析NFT 交易Wash trading 交易以及機器人帳戶篩選排查。

然而,傳統AI 擁有的信息有限,專注於使用預定的算法和規則執行預設任務,而LLM 則通過大規模的自然語言資料學習,可以理解和產生自然語言,這使其更適合處理複雜且巨量的文字資料。

最近,隨著LLM 取得了顯著進展,人們對AI 與Web3 資料的結合,也進行了一些新的思考與探索。

3.1.2. LLM 的優勢

LLM 相對於傳統人工智能具有以下優勢:

●可擴充性:LLM 支援大規模資料處理

LLM 在可擴展性方面表現出色,能夠有效處理大量資料和使用者互動。這使其非常適合處理需要大規模資訊處理的任務,例如文字分析或大規模資料清洗。其高度的數據處理能力為區塊鏈數據產業提供了強大的分析和應用潛力。

●適應性:LLM 可學習適應多領域需求

LLM 具備卓越的適應性,可以為特定任務進行微調或嵌入行業或私人數據庫,使其能夠迅速學習並適應不同領域的細微差別。這一特性使LLM 成為了解決多領域、多用途問題的理想選擇,為區塊鏈應用的多樣性提供了更廣泛的支援。

● 提高效率:LLM 自動化任務提高效率

LLM 的高效率率為區塊鏈資料產業帶來了顯著的便利。它能夠自動化原本需要大量人工時間和資源的任務,從而提高生產力並降低成本。 LLM 可以在幾秒鐘內產生大量文字、分析大量資料集,或執行多種重複性任務,從而減少了等待和處理時間,使區塊鏈資料處理更加有效率。

● 任務分解:可以產生某些工作的具體計劃,把大的工作分成小步驟

LLM Agent 具備獨特的能力,即可以產生某些工作的具體計劃,將復雜任務分解為可管理的小步驟。這項特性對於處理大規模的區塊鏈資料和執行複雜的資料分析任務非常有益。通過將大型工作分解成小任務,LLM 可以更好地管理資料處理流程,並輸出高品質的分析。

這項能力對於執行複雜任務的AI 系統至關重要,例如機器人自動化、項目管理和自然語言理解與生成,使其能夠將高階任務目標轉化為詳細的行動路線,並提高任務執行的效率和準確性。

●可存取性和易用性:LLM 以自然語言提供使用者友善互動

LLM 的可訪問性使更多用戶能夠輕鬆與數據和系統互動,讓這些互動更加用戶友好。通過自然語言,LLM 使資料和系統更容易訪問和交互,無需使用者學習複雜的技術術語或特定命令,例如,SQL,R,Python 等來做資料擷取和分析。這項特性拓寬了區塊鏈應用的受眾範圍,讓更多的人能夠存取和使用Web3 應用和服務,無論他們是否精通技術,從而促進了區塊鏈數據行業的發展和普及。

3.2. LLM 與Web3 資料的融合

圖7 :區塊鏈數據與LLM 的融合

大型語言模型的訓練需要依賴大規模數據,透過學習數據中的模式來建立模型。區塊鏈資料中蘊含的互動和行為模式是LLM 學習的燃料。資料量和品質也直接影響LLM 模型的學習效果。

數據不僅是LLM 的消耗品,LLM 還有助於生產數據,甚至可以提供回饋。例如,LLM 可以協助數據分析師在數據預處理方面做出貢獻,如數據清洗和標註,或產生結構化數據,清除數據中的噪聲,凸顯有效信息。

3.3. 增強LLM 的常用技術解決方案

ChatGPT 的出現,不僅向我們展示了LLM 解決複雜問題的通用能力,同時也引發了全球範圍的,對在通用能力上去疊加外部能力的探索。這裡包括,通用能力的增強(包括上下文長度、複雜推理、數學、代碼、多模態等)以及外部能力的擴充(處理非結構化資料、使用更複雜的工具、與物理世界的互動等) 。如何將crypto 領域的專有知識以及個人的個性化私有資料嫁接到大模型的通用能力上,是大模型在crypto 垂直領域商業化落地的核心技術問題。

目前,大多數應用都集中在檢索增強生成(RAG)上,例如提示工程和嵌入技術,已經存在的代理工具也大多聚焦於提高RAG 工作的效率和準確性。市場上主要的基於LLM 技術的應用堆疊的參考架構有以下幾種:

● Prompt Engineering

圖8 :Prompt Engineering

目前,大多數從業者在建構應用時採用基礎解決方案,即Prompt Engineering。此方法透過設計特定的Prompt 來改變模型的輸入,以滿足特定應用的需求,是最方便快速的做法。然而,基礎的Prompt Engineering 存在一些限制,例如數據庫更新不及時、內容冗餘、以及對輸入上下文長度(In-Context Length)的支援和多輪問答的限制。

因此,業界也正在研究更先進的改進方案,包括嵌入(Embedding)和微調(Fine-tuning)。

● 嵌入(Embedding)

嵌入(Embedding)是一種廣泛應用於人工智慧領域的資料表示方法,可高效捕捉物件的語義資訊。通過將物件屬性映射成向量形式,嵌入技術能夠透過分析向量之間的相互關係,快速找到最有可能正確的答案。嵌入可以在LLM 的基礎上構建,以利用該模型在廣泛語料中學到的豐富語言知識。通過嵌入技術將特定任務或領域的信息引入預訓練的大模型中,使得模型更專業化,更適應特定任務,同時保留了基礎模型的通用性。

用通俗的話來講,嵌入就類似於你給一個經過綜合訓練的大學生一本工具書,讓他拿著擁有特定任務相關知識的工具書去完成任務,他可以隨時查閱工具書,然後可以解決特定的問題。

● 微調(Fine-tuning)

圖9 :Fine Tuning

微調(Fine-tuning)與嵌入不同,透過更新已經預先訓練的語言模型的參數,使其適應特定任務。這種方法允許模型在特定任務上表現出更好的性能,同時保持通用性。微調的核心思想是調整模型參數,捕捉與目標任務相關的特定模式和關係。但微調的模型通用能力上限仍受限於基座模型本身。

用通俗的話來講,微調就類似於給經過綜合訓練的大學生上專業知識課程,讓他掌握除了綜合能力以外的專業課知識,能自行解決專業板塊的問題。

●重新訓練LLM

目前的LLM 雖然強大,但不一定能滿足所有需求。重新訓練LLM 是一種高度客製化的解決方案,透過引入新資料集和調整模型權重,使其更適應特定任務、需求或領域。然而,這種方法需要大量計算資源和數據,管理和維護重新訓練後的模型也是挑戰之一。

● Agent 模型

圖10 :Agent 模型

Agent 模型是一種建立智慧代理的方法,它以LLM 作為核心控制器。這個系統還包括幾個關鍵組成部分,以提供更全面的智慧。

● Planning,規劃:將大任務分成小任務,這樣比較容易完成

● Memory,反思:透過反思過去的行為,改善未來的計劃

● Tools,工具使用:代理可以調用外部工具獲取更多信息,如調用搜索引擎、計算器等

人工智能代理模式具有強大的語言理解和生成能力,能夠解決通用問題,進行任務分解以及自我反思。這使得它在各種應用中都有廣泛的潛力。然而,代理模型也存在一些局限性,例如受到上下文長度的限制、長期規劃和任務拆分容易出錯、輸出內容的可靠性不穩定等問題。這些限制需要長期不斷的研究和創新,以進一步拓展代理模型在不同領域的應用。

以上的各種技巧並不是互相排斥的,它們可以在訓練和增強同一個模型的過程中一起使用。開發者可以充分發揮現有大語言模型的潛力,嘗試不同的方法,以滿足日益複雜的應用需求。這種綜合使用不僅有助於提升模型的效能,還有助於推動Web3 技術的快速創新和進步。

然而,我們認為,雖然現有的LLM 已經在Web3 的快速發展中發揮了重要作用,但在充分嘗試這些現有模型(如OpenAI、Llama 2 以及其他開源LLM)之前,我們可以從淺入深,從prompt engineering 和嵌入等RAG 策略入手,謹慎考慮微調和重新訓練基礎模型。

3.4. LLM 如何加速區塊鏈資料生產的各個流程

3.4.1. 區塊鏈資料的一般處理流程

在當今,區塊鏈領域的建構者逐漸認識到數據產品的價值。這一價值涵蓋了產品運營監控、預測模型、推薦系統以及數據驅動的應用等多個領域。儘管這項認知逐漸增強,但作為資料取得到資料應用中不可或缺的關鍵步驟,資料處理往往被忽略。

圖11 :區塊鏈資料處理流程

● 將區塊鏈原始非結構化數據,如events 或logs 等,轉換為結構化的數據

區塊鏈上的每一筆交易或事件都會產生events 或logs,這些資料通常是非結構化的。這一步是獲取資料的第一個入口,但資料仍需要進一步處理以提取有用信息,以獲得結構化的原始資料。這包括整理資料、處理異常情況和轉換為通用格式。

● 將結構化的原始數據,轉換為具有業務意義的抽象表

在得到結構化原始資料後,需要進一步進行業務抽象,將資料對應到業務實體和指標上,例如交易量、使用者量等業務指標,將原始資料轉化為對業務和決策有意義的資料。

● 從抽象表中,計算出擷取業務指標

有了抽象的業務資料後,可以在業務抽象的資料上進一步計算,就可以得出各種重要的衍生指標。例如交易總額的月增長率、用戶留存率等核心指標。這些指標可以藉助SQL、Python 等工具實現,更有可能幫助監控業務健康、了解使用者行為和趨勢,進而支持決策和策略規劃。

3.4.2. 區塊鏈資料產生流程加入LLM 後的優化

LLM 在區塊鏈資料處理中可以解決多個問題,包括但不限於以下內容:

處理非結構化資料:

● 從交易日誌和事件中提取結構化信息: LLM 可以分析區塊鏈的交易日誌和事件,提取其中的關鍵信息,如交易金額、交易方地址、時間戳記等,將非結構化數據轉化為的帶有業務意義的數據,使其更易於分析和理解。

● 清洗數據,識別異常數據: LLM 可以自動識別和清洗不一致或異常的數據,幫助確保數據的準確性和一致性,從而提高數據品質。

進行業務抽象化:

● 將原始鏈上資料對應到業務實體: LLM 可以將原始區塊鏈資料對應到業務實體,例如將區塊鏈地址對應到實際使用者或資產,從而使業務處理更加直觀和有效。

● 處理非結構化鏈上內容,打標籤: LLM 可以分析非結構化數據,如Twitter 情感分析結果,將其標記為正面、負面或中性情感,從而幫助用戶更好地理解社交媒體上的情感傾向。

自然語言解讀數據:

● 計算核心指標: 基於業務抽象,LLM 可以計算核心業務指標,如用戶交易量、資產價值、市場份額等,以幫助用戶更了解其業務的關鍵績效。

●查詢資料:LLM 可以透過AIGC,理解使用者意圖,產生SQL 查詢,使用戶能夠以自然語言提出查詢要求,而不必編寫複雜的SQL 查詢語句。這增加了數據庫查詢的可訪問性。

● 指標選擇、排序和相關性分析: LLM 可以幫助使用者選擇、排序和分析不同的多個指標,以更好地理解它們之間的關係和相關性,從而支援更深入的數據分析和決策。

● 產生商業抽象的自然語言描述: LLM 可以根據事實數據,產生自然語言摘要或解釋,以幫助使用者更好地理解業務抽象和數據指標,提高可解釋性,並使決策更具合理性。

3.5. 目前用例

根據LLM 本身的技術以及產品體驗優勢,它可以被應用到不同的鏈上資料場景,技術上從易到難可以將這些場景分成四類:

●資料轉換:進行資料增強、重構等操作,如文字摘要、分類、資訊擷取。這類應用開發較快,但較適合通用場景,較不適合大量資料的簡單批次化處理。

●自然語言介面:將LLM 連接知識庫或工具,實現問答或基本工具使用的自動化。這可以用於建立專業聊天機器人,但其實際價值受其所連接的知識庫品質等其他因素影響。

●工作流程自動化:使用LLM 實現業務流程的標準化和自動化。這可以應用於較複雜的區塊鏈資料處理流程,如解構智慧合約運作流程、風險識別等。

● 協助機器人與助手輔助系統:輔助系統是在自然語言介面的基礎上,整合更多資料來源與功能的增強系統,大幅提升使用者工作效率。

圖12 :LLM 應用場景

3.6. LLM 的局限性

3.6.1. 產業現狀:成熟應用、正在攻克的問題、尚未解決的挑戰

在Web3 數據領域,儘管已經取得了一些重要的進展,但仍面臨一些挑戰。

相對成熟的應用:

● 使用LLM 進行資訊處理:LLM 等AI 技術已成功用於產生文字摘要、總結、解釋等工作,幫助使用者從長篇文章、專業報告中提取關鍵消息,提高了數據的可讀性和可理解性。

● 使用AI 解決開發問題: LLM 已經應用於解決開發過程中的問題,例如取代StackOverflow 或搜尋引擎,為開發者提供問題解答和程式支援。

有待解決與正在探索的問題:

● 利用LLM 產生程式碼: 業界正在努力將LLM 技術應用於自然語言到SQL 查詢語言的轉換,以提高資料庫查詢的自動化和可理解性。然而,過程中會有很多困難,例如在某些情境下,產生的代碼要求極高的準確性,語法必須百分之百正確,以確保程式能夠無bug 運行,並獲得正確的結果。難點還包括確保問題回答的成功率、正確率,以及對業務的深刻理解。

● 資料標註問題: 資料標註對於機器學習和深度學習模型的訓練至關重要,但在Web3 資料領域,特別是處理匿名的區塊鏈資料時,標註資料的複雜性較高。

● 準確度與幻覺(Hallucination)問題:AI 模型中幻覺的出現可能受多因素影響,包括有偏見或不足的訓練資料、過度適配、有限的情境理解、缺乏領域知識、對抗性攻擊和模型架構。研究人員和開發者需要不斷改進模型的訓練和校準方法,以提高生成文本的可信度和準確性。

● 利用資料進行商業分析和文章輸出: 將資料用於商業分析和產生文章仍然是一個具有挑戰性的問題。問題的複雜性、需要精心設計的提示(prompt)、以及高品質的數據、數據量、減少幻覺問題的方法都是待解決的問題。

● 根據業務領域自動索引智慧合約資料以進行資料抽象化: 自動為不同業務領域的智慧合約資料建立索引以進行資料抽象化仍然是一個未解決的問題。這需要綜合考慮不同業務領域的特點,以及資料的多樣性和複雜性。

● 處理時序資料,表格檔案資料等較複雜的模態:DALL·E 2 等多模態模型非常擅長在文字產生影像、語音等常見模態。而在區塊鏈以及金融領域需要特別地處理一些時序數據,而非簡單地把文字向量化就能解決。聯和時序資料與文本,跨模態聯合訓練等,是實現資料智慧分析以及應用的重要研究方向。

3.6.2. 為何只靠LLM 不能完美解決區塊鏈資料產業的問題

作為語言模型,LLM 更適用於處理流暢度要求較高的場景,而在追求準確性方面,可能需要對模型進行更進一步的調整。在將LLM 應用於區塊鏈資料產業時,以下框架可提供一些參考。

圖13 :區塊鏈資料產業下LLM 輸出的流暢性、準確性與用例風險

在評估LLM 在不同應用中的適用性時,專注於流暢度和準確性是至關重要的。流暢度指的是模型的輸出是否自然、通順,準確度則表示模型的答案是否準確。這兩個維度在不同應用場景中有不同的要求。

對於流暢度要求較高的任務,如自然語言生成、創意寫作等,LLM 通常能夠勝任,因為其在自然語言處理方面的強大性能使其能夠產生流暢的文本。

區塊鏈資料面臨資料解析、資料處理、資料應用等多面向的問題。 LLM 擁有卓越的語言理解和推理能力,使其成為與區塊鏈資料互動、整理和概括的理想工具。然而,LLM 並不能解決所有區塊鏈資料領域的問題。

在資料處理方面,LLM 更適合快速迭代和探索性處理鏈上資料,不斷嘗試新的處理方法。然而,LLM 在生產環境中的詳細核對等任務方面仍存在一些限制。典型的問題是token 長度不夠,無法應付長上下文的內容。耗時的prompt,回答不穩定性影響下游任務進而導致成功率不穩定的問題,以及執行大量任務的效率不高。

其次,LLM 處理內容的過程中很可能會出現幻覺問題。據估計,ChatGPT 的幻覺機率約為15% 至20% ,而由於其處理過程的不透明性,許多錯誤難以察覺。因此,框架的建立和專家知識的結合變得至關重要。此外,LLM 結合鏈上數據還是有許多挑戰:

● 鏈上資料實體類型多、數量龐大,以何種形式投餵給LLM,有效地運用在具體的商業化場景,類似其他垂直行業,需要更多研究和探索。

● 鏈上數據包括結構化和非結構化數據,目前業界大多數數據解決方案,都是基於對業務數據的理解。解析鏈上資料的過程中,用ETL 去過濾,清洗,補充和復原業務邏輯,進一步把非結構化資料整理為結構化數據,可以為後期多種業務場景提供更高效的分析。例如,結構化的DEX trades,NFT marketplace transactions,wallet address portfolio 等,就具有前面提到的高質量,高價值,準確和真實等特點,可以給通用LLM 提供高效的補充。

4. 被誤解的LLM

4.1. LLM 可以直接處理非結構化資料,因此結構化資料將不再被需要?

LLM 通常是基於海量文字資料預訓練而來,自然適合處理各類非結構化的文字資料。然而,各產業已經擁有大量結構化數據,尤其Web3 領域中解析後的數據。如何有效的利用這些數據,增強LLM,是一個行業的熱門研究主題。

對於LLM,結構化數據仍然具有以下的優勢:

● 海量:大量的資料儲存在各種應用背後的資料庫和其他標準格式裡面,特別是私有資料。每個公司和行業都還有大量LLM 沒有用於預訓練的牆內資料。

● 已有:這些資料不需要重新生產,投入成本極低,唯一的問題是怎麼用起來。

● 高品質與高價值:領域內長期累積的,蘊含專家的專業知識,通常都沉澱到了結構化資料裡面,用於產學研。結構化資料的品質是資料可用性的關鍵,其中包括資料的完整性、一致性、準確性、唯一性和事實性。

● 高效率:結構化資料以表格、資料庫或其他規範格式存儲,模式是預先定義的,並且在整個資料集中保持一致。這意味著數據的格式、類型和關係都是可預測和可控的,使得數據的分析和查詢更加簡單和可靠。而且,業界已經有成熟的ETL 及各種數據處理和管理工具,使用起來也更有效率、更方便。 LLM 可以通過API,把這些資料使用起來。

●準確性與事實性:LLM 的文字數據,基於token 機率,目前還不能穩定的輸出確切的答案,產生的幻覺問題一直是LLM 要解決的核心根本問題。對於許多行業和場景,會形成安全和可靠性問題,例如,醫療,金融等。結構化數據,正是可以輔助和矯正LLM 這些問題的一個方向。

● 體現關係圖譜,和特定業務邏輯:不同類型的結構化數據,可以以特定的組織形式(關係型數據庫,圖數據庫等),輸入到LLM,解決不同類型的領域問題。結構化資料使用標準化的查詢語言(如SQL),使得對資料進行複雜的查詢和分析變得更有效率和準確。知識圖譜(Knowledge Graph) 可以更好地表達實體之間的關係,也更容易進行關聯查詢。

● 使用成本低:不用LLM 每次重新從底層重新訓練整個底座模型,可以結合Agents 和LLM API 等LLM 賦能方式,更快更低成本的接取LLM。

目前市場上還有一些腦洞大開的觀點,認為LLM 在處理文字資訊和非結構化資訊方面的能力極強,只需將原始數據,包括非結構化數據,簡單導入到LLM,就能達到目的。這個想法類似於要求通用LLM 解數學題,在沒有專門建立數學能力模型的情況下,大多數LLM 可能會在處理簡單的小學加減題時出錯。反而,建立類似數學能力模型,而影像產生模型的Crypto LLM 垂直模型,才是解決LLM 在Crypto 領域更落地的實踐。

4.2. LLM 可以從新聞、推特等文字資訊推測內容,人們不再需要鏈上資料分析來下結論?

LLM 雖然可以從新聞、社交媒體等文本中獲得信息,但直接從鏈上數據中獲得的洞察仍然是不可或缺的,主要原因有:

● 鏈上資料是原始的第一手信息,而新聞和社群媒體中的信息可能存在片面性或誤導性。直接分析鏈上數據可以減少資訊偏差。儘管利用LLM 進行文本分析存在理解偏差的風險,但直接分析鏈上數據可以減少誤讀。

● 鏈上資料包含全面的歷史互動和交易記錄,分析可以發現長期趨勢和模式。鏈上資料還可以展現整個生態系的全貌,如資金流向、各方關係等。這些宏觀的洞察有助於更深入地理解狀況。而新聞和社群媒體訊息通常更零散且短期。

● 鏈上資料是開放的。任何人都可以驗證分析結果,避免資訊的不對稱。而新聞和社群媒體未必如實揭露。文字資訊和鏈上資料可以相互驗證。綜合兩者可以形成更立體和準確的判斷。

鏈上數據分析仍是不可或缺的。 LLM 從文本中取得資訊具有輔助作用,但不能取代直接分析鏈上資料。充分利用兩者優勢才能達到最佳效果。

4.3. 利用LangChain、LlamaIndex 或其他AI 工具,在LLM 的基礎上建立區塊鏈資料解決方案非常容易?

LangChain 和LlamaIndex 等工具為建立自訂的簡單LLM 應用提供了便利,使快速建造成為可能。然而,將這些工具成功應用於實際生產環境中涉及更多的挑戰。建立一個高效運作、維持高品質的LLM 應用是一項複雜的任務,需要深入理解區塊鏈技術和AI 工具的工作原理,並有效地將它們整合在一起。這對於區塊鏈資料產業來說,是一項重要但具有挑戰性的工作。

在這個過程中,必須認識到區塊鏈資料的特性,它要求極高的精確性和可重複校驗性。一旦數據通過LLM 進行處理和分析,用戶對其準確性和可信度有很高的期望。這與LLM 的模糊容錯性之間存在著潛在的矛盾。因此,在建立區塊鏈數據解決方案時,必須仔細權衡這兩方面的需求,以滿足用戶的期望。

在當前市場上,雖然已經有了一些基礎工具,但這個領域仍在快速演進和不斷迭代。類比於Web2 世界的發展歷程,從最初的PHP 程式語言到更成熟、可擴展的方案如Java、Ruby、Python,以及JavaScript 和Node.js 等,再到Go 和Rust 等新興技術,都經歷了不斷的演變。 AI 工具也不斷變化,新興的GPT 框架如AutoGPT,Microsft AutoGen,及最近OpenAI 自己推出的ChatGPT 4.0 Turbo 的GPTs 和Agents 等只是展示了未來可能性的一部分。這表明,區塊鏈資料產業和AI 技術都還有許多發展空間,需要不斷努力和創新。

目前在應用LLM 時,有兩個陷阱需要特別注意:

● 期望值過高:很多人認為LLM 可以解決一切問題,但實際上LLM 有明顯的限制。它需要大量的運算資源,訓練成本高昂,而且訓練過程可能不穩定。對LLM 的能力要有現實的期望,明白它在某些場景下表現出色,如自然語言處理和文本生成,但在其他領域可能無法勝任。

● 忽略業務需求:另一個陷阱是強行應用LLM 技術,而不充分考慮業務需求。在應用LLM 之前,請務必先明確具體的業務需求。需評估LLM 是否為最佳技術選擇,並做好風險評估與控制。強調LLM 的有效應用需要根據實際情況慎重考慮,避免誤用。

儘管LLM 在許多領域都具備巨大潛力,但開發者和研究者在應用LLM 時需要保持謹慎,採取開放的探索態度,以找到更適合的應用場景並最大程度地發揮其優勢。

本文由Footprint Analytics、 Future 3 Campus、HashKey Capital 共同出版。

關於我們

Footprint Analytics是一家區塊鏈數據解決方案提供商。透過尖端的人工智慧技術,我們提供Crypto 領域首個支援無程式碼資料分析平台以及統一的資料API,讓用戶可以快速檢索超過30 條公鏈生態的NFT,GameFi 以及錢包位址資金流追蹤資料。

Footprint 官網:https://www.footprint.network

Twitter:https://twitter.com/Footprint_Data

微信公眾號:Footprint 區塊鏈分析

加入社群:加助手微信拉群組footprint_analytics

Future 3 Campus是由萬向區塊鏈實驗室和HashKey Capital 共同發起的Web3.0 創新孵化平台,重點聚焦Web3.0 Massive Adoption、DePIN、AI 三大賽道,以上海、粵港澳大灣區、新加坡為主要孵化基地,輻射全球Web3.0 生態。同時,Future 3 Campus 將推出首期5,000 萬美金的種子基金用於Web3.0 計畫孵化,真正服務於Web3.0 領域的創新創業。

HashKey Capital是一家專注於投資區塊鏈技術及數字資產的資產管理機構,目前資產管理規模超10 億美元。作為亞洲最具規模及影響力的區塊鏈投資機構之一,同時也是以太坊最早的機構投資者,HashKey Capital 發揮頭雁效應,連接Web2與Web3,與創業家、投資者、社區和監管機構攜手共建永續發展的區塊鏈生態體系。公司位於中國香港、新加坡、日本、美國等地,現已率先佈局橫跨Layer 1、協議、Crypto Finance、Web3基礎設施、應用、NFT、Metaverse 等賽道的全球被投企業500 餘家,代表性被投項目包括Cosmos, Coinlist, Aztec, Blockdaemon, dYdX, imToken, Animoca Brands, Falcon X, Space and time, Mask Network, Polkadot, Moonbeam and Galxe (原Project Galaxy)等。

Web3.0
AI
技術
安全
投資
NFT
歡迎加入Odaily官方社群