# 數據即資產:DataFi 開啓新藍海全球正處於競相構建最佳基礎模型的時代。雖然計算能力和模型架構很重要,但真正的護城河是訓練數據。本月AI圈最大的新聞是Meta展現實力,扎克伯格廣招人才,組建了一支以華人科研人才爲主的豪華AI團隊。領隊是28歲的Alexander Wang,他創建的Scale AI目前估值290億美金,爲包括美國軍方、OpenAI、Anthropic、Meta等在內的多家有競爭關係的AI巨頭提供數據服務。Scale AI的核心業務是提供大量準確的標注數據。## Scale AI的成功之道Scale AI之所以能在衆多獨角獸中脫穎而出,是因爲它早早發現了數據在AI產業中的重要性。算力、模型、數據是AI模型的三大支柱。如果將大模型比作一個人,那麼模型是身體、算力是食物,而數據則是知識/信息。在LLM快速發展的過程中,業界的重點經歷了從模型到算力的轉移。目前大多數模型都已確立了transformer作爲框架,偶爾有MoE或MoRe等創新;各大巨頭或自建超級計算集羣,或與雲服務商籤訂長期協議解決算力問題。在解決了算力的基本需求後,數據的重要性逐漸凸顯。Scale AI致力於爲AI模型打造堅實的數據基礎,其業務不僅包括對現有數據的挖掘,還着眼於長遠的數據生成業務。該公司通過不同領域的人工專家組成AI訓練團隊,爲AI模型的訓練提供更優質的數據。## 模型訓練的兩個階段模型訓練分爲預訓練和微調兩個部分。預訓練類似人類嬰兒學習說話的過程,需要向AI模型輸入大量從網上爬取的文本、代碼等信息,讓模型通過自學掌握基本的溝通能力。微調則類似上學,通常有明確的對錯、答案和方向。不同的"學校"會培養出不同特點的"人才"。我們通過一些精心準備的、有針對性的數據集,使模型具備我們期望的能力。因此,我們需要兩類數據:1. 無需太多處理的海量數據,主要來自大型UGC平台的爬蟲數據、公開文獻數據庫、企業私有數據庫等。2. 經過精心設計和篩選的專業數據集,需要進行數據清洗、篩選、標注、人工反饋等工作。這兩類數據集構成了AI Data賽道的主體。目前普遍認爲,隨着算力優勢的逐漸消失,數據將成爲大模型廠商保持競爭力的關鍵。隨着模型能力的進一步提升,各種更精細、專業的訓練數據將成爲決定模型能力的關鍵因素。如果將模型訓練比作培養武林高手,那麼優質的數據集就是最上乘的武功祕籍。從長遠來看,AI Data是一個具有滾雪球效應的長期賽道。隨着前期工作的積累,數據資產將具備複利能力,價值會隨時間增長。## Web3 DataFi:AI Data的理想土壤相比傳統數據公司,Web3在AI數據領域具有天然優勢,由此誕生了DataFi概念。理想情況下,Web3 DataFi的優勢包括:1. 智能合約保障數據主權、安全和隱私2. 分布式架構吸引最適合的全球勞動力3. 區塊鏈提供明確的激勵和結算優勢4. 有利於構建高效、開放的一站式數據市場對普通用戶而言,DataFi是最容易參與的去中心化AI項目。用戶只需簡單登入錢包,就可以通過完成各種任務參與其中,如提供數據、對模型進行評估、利用AI工具進行簡單創作、參與數據交易等。## Web3 DataFi的潛力項目目前已有多個DataFi項目獲得大額融資,以下是部分代表性項目:- Sahara AI:致力於打造去中心化AI的基礎設施和交易市場- Yupp:AI模型反饋平台,收集用戶對模型輸出的評價- Vana:將用戶個人數據轉化爲可貨幣化的數字資產- Chainbase:聚焦鏈上數據,覆蓋200多條區塊鏈- Sapien:將人類知識轉化爲高質量AI訓練數據- Prisma X:致力於構建機器人的開放協調層- Masa:Bittensor生態的子網項目,提供實時數據訪問- Irys:專注於可編程數據存儲和計算- ORO:賦能普通人參與AI貢獻- Gata:去中心化數據層,提供多種數據參與方式這些項目目前壁壘普遍不高,但隨着用戶和生態粘性的積累,平台優勢將迅速形成。早期項目應該在激勵措施和用戶體驗上着重發力,吸引足夠的用戶。同時,這些平台也需要注意如何管理人工、保障數據質量,避免出現"擼毛黨"導致的劣幣驅逐良幣現象。一些項目如Sahara、Sapien已開始強調數據質量,努力與平台用戶建立長期健康的合作關係。此外,提高透明度也是當前鏈上項目面臨的一個挑戰。許多項目仍需加快開放、透明的步伐,以促進Web3 DataFi的長期健康發展。DataFi的大規模採用需要從兩個方面推進:一是吸引足夠多的個人用戶參與數據採集/生成,形成AI經濟的消費者羣體;二是獲得主流企業的認可,因爲短期內它們是數據大單的主要來源。## 結語從某種角度看,DataFi是用人類智能長期培育機器智能,同時通過智能合約保障人類智能勞動的收益,最終享受機器智能的回饋。對於那些對AI時代充滿不確定性,或在區塊鏈領域仍懷有理想的人來說,跟隨資本大佬的腳步投身DataFi,不失爲一個順勢而爲的選擇。
DataFi:Web3推動AI數據資產化新趨勢
數據即資產:DataFi 開啓新藍海
全球正處於競相構建最佳基礎模型的時代。雖然計算能力和模型架構很重要,但真正的護城河是訓練數據。本月AI圈最大的新聞是Meta展現實力,扎克伯格廣招人才,組建了一支以華人科研人才爲主的豪華AI團隊。領隊是28歲的Alexander Wang,他創建的Scale AI目前估值290億美金,爲包括美國軍方、OpenAI、Anthropic、Meta等在內的多家有競爭關係的AI巨頭提供數據服務。Scale AI的核心業務是提供大量準確的標注數據。
Scale AI的成功之道
Scale AI之所以能在衆多獨角獸中脫穎而出,是因爲它早早發現了數據在AI產業中的重要性。
算力、模型、數據是AI模型的三大支柱。如果將大模型比作一個人,那麼模型是身體、算力是食物,而數據則是知識/信息。
在LLM快速發展的過程中,業界的重點經歷了從模型到算力的轉移。目前大多數模型都已確立了transformer作爲框架,偶爾有MoE或MoRe等創新;各大巨頭或自建超級計算集羣,或與雲服務商籤訂長期協議解決算力問題。在解決了算力的基本需求後,數據的重要性逐漸凸顯。
Scale AI致力於爲AI模型打造堅實的數據基礎,其業務不僅包括對現有數據的挖掘,還着眼於長遠的數據生成業務。該公司通過不同領域的人工專家組成AI訓練團隊,爲AI模型的訓練提供更優質的數據。
模型訓練的兩個階段
模型訓練分爲預訓練和微調兩個部分。
預訓練類似人類嬰兒學習說話的過程,需要向AI模型輸入大量從網上爬取的文本、代碼等信息,讓模型通過自學掌握基本的溝通能力。
微調則類似上學,通常有明確的對錯、答案和方向。不同的"學校"會培養出不同特點的"人才"。我們通過一些精心準備的、有針對性的數據集,使模型具備我們期望的能力。
因此,我們需要兩類數據:
無需太多處理的海量數據,主要來自大型UGC平台的爬蟲數據、公開文獻數據庫、企業私有數據庫等。
經過精心設計和篩選的專業數據集,需要進行數據清洗、篩選、標注、人工反饋等工作。
這兩類數據集構成了AI Data賽道的主體。目前普遍認爲,隨着算力優勢的逐漸消失,數據將成爲大模型廠商保持競爭力的關鍵。
隨着模型能力的進一步提升,各種更精細、專業的訓練數據將成爲決定模型能力的關鍵因素。如果將模型訓練比作培養武林高手,那麼優質的數據集就是最上乘的武功祕籍。
從長遠來看,AI Data是一個具有滾雪球效應的長期賽道。隨着前期工作的積累,數據資產將具備複利能力,價值會隨時間增長。
Web3 DataFi:AI Data的理想土壤
相比傳統數據公司,Web3在AI數據領域具有天然優勢,由此誕生了DataFi概念。
理想情況下,Web3 DataFi的優勢包括:
對普通用戶而言,DataFi是最容易參與的去中心化AI項目。用戶只需簡單登入錢包,就可以通過完成各種任務參與其中,如提供數據、對模型進行評估、利用AI工具進行簡單創作、參與數據交易等。
Web3 DataFi的潛力項目
目前已有多個DataFi項目獲得大額融資,以下是部分代表性項目:
這些項目目前壁壘普遍不高,但隨着用戶和生態粘性的積累,平台優勢將迅速形成。早期項目應該在激勵措施和用戶體驗上着重發力,吸引足夠的用戶。
同時,這些平台也需要注意如何管理人工、保障數據質量,避免出現"擼毛黨"導致的劣幣驅逐良幣現象。一些項目如Sahara、Sapien已開始強調數據質量,努力與平台用戶建立長期健康的合作關係。
此外,提高透明度也是當前鏈上項目面臨的一個挑戰。許多項目仍需加快開放、透明的步伐,以促進Web3 DataFi的長期健康發展。
DataFi的大規模採用需要從兩個方面推進:一是吸引足夠多的個人用戶參與數據採集/生成,形成AI經濟的消費者羣體;二是獲得主流企業的認可,因爲短期內它們是數據大單的主要來源。
結語
從某種角度看,DataFi是用人類智能長期培育機器智能,同時通過智能合約保障人類智能勞動的收益,最終享受機器智能的回饋。
對於那些對AI時代充滿不確定性,或在區塊鏈領域仍懷有理想的人來說,跟隨資本大佬的腳步投身DataFi,不失爲一個順勢而爲的選擇。