對(duì)于區(qū)塊鏈和人工智能而言,2018年仍是它們風(fēng)口正勁的一年。在過(guò)去的一年中,我們目睹了擊敗專業(yè)圍棋選手的AI程序AlphaGo,也見(jiàn)證了區(qū)塊鏈在全球范圍內(nèi)的強(qiáng)勢(shì)發(fā)展。那么當(dāng)我們把區(qū)塊鏈和需要大量訓(xùn)練數(shù)據(jù)的機(jī)器學(xué)習(xí)模型結(jié)合在一起后,普通開發(fā)者能否打破科技巨頭的壟斷,創(chuàng)造出真正的AGI呢?
且不論區(qū)塊鏈和人工智能行業(yè)中存在的泡沫。如果我們能建立一個(gè)基于區(qū)塊鏈的機(jī)器學(xué)習(xí)市場(chǎng),那它就結(jié)合了兩大優(yōu)勢(shì):一是私人化的機(jī)器學(xué)習(xí),即允許在不透露用戶敏感隱私數(shù)據(jù)的情況下訓(xùn)練模型;二是區(qū)塊鏈的激勵(lì)機(jī)制,它會(huì)優(yōu)先選擇最佳數(shù)據(jù)和模型,并使其變得更智能。它們共同作用的結(jié)果就是一個(gè)開放的市場(chǎng):任何人都能在里面出售數(shù)據(jù),同時(shí)保證數(shù)據(jù)的安全性;而開發(fā)者則可以通過(guò)激勵(lì)機(jī)制為算法篩選優(yōu)質(zhì)數(shù)據(jù)。
構(gòu)建這樣一個(gè)系統(tǒng)是極具挑戰(zhàn)性的。雖然一些關(guān)鍵的區(qū)塊還沒(méi)有人做出來(lái)過(guò),但如果只是構(gòu)建一個(gè)簡(jiǎn)單的初始版本,這在現(xiàn)在已經(jīng)不是一件難事。我們現(xiàn)還處于Web 2.0時(shí)代,這是個(gè)數(shù)據(jù)都被市場(chǎng)、大公司壟斷的時(shí)代,也是個(gè)不公平的時(shí)代。如果我們建立了這樣一個(gè)市場(chǎng),那它就能真正開啟數(shù)據(jù)和算法的全面公開競(jìng)爭(zhēng),提前讓每個(gè)人邁入Web 3.0時(shí)代。簡(jiǎn)而言之,在這樣的市場(chǎng)中,我們的數(shù)據(jù)和算法都能被直接貨幣化。
起源
這個(gè)靈感來(lái)自2015年查德· 努梅萊的采訪對(duì)話。Numer.ai是一個(gè)向參賽者開放大量加密數(shù)據(jù)機(jī)器學(xué)習(xí)競(jìng)賽平臺(tái),被稱為金融市場(chǎng)的Kaggle。它也是一家對(duì)沖基金,利用數(shù)據(jù)科學(xué)家訓(xùn)練出的模型進(jìn)行資本運(yùn)作。把加密后的市場(chǎng)數(shù)據(jù)分發(fā)下去后,Numer.ai會(huì)從競(jìng)賽中挑選出最好的模型放入“元模型”中,如果“元模型”表現(xiàn)良好(盈利),那相關(guān)數(shù)據(jù)科學(xué)家就能從中得到分紅。
像這樣讓數(shù)據(jù)科學(xué)家們參與競(jìng)爭(zhēng)的方法似乎是一個(gè)可行的思路,既然Numer.ai能把原本完全分散的各個(gè)模型整合在一起用于對(duì)沖基金,那從理論上來(lái)說(shuō),同樣的做法也適用于其他任何領(lǐng)域。
嘗試
作為一個(gè)示例,我們可以先試著創(chuàng)建一個(gè)完全分散的系統(tǒng),并把它用于用于加密貨幣零散交易,這事實(shí)上也是區(qū)塊鏈的一個(gè)潛在應(yīng)用場(chǎng)景。
數(shù)據(jù)(DATA):數(shù)據(jù)提供者分類數(shù)據(jù),并把它們提供給建模人員。
模型構(gòu)建(MODELS):建模人員篩選出合適的數(shù)據(jù),并創(chuàng)建模型。為了防止數(shù)據(jù)泄露,系統(tǒng)要保證訓(xùn)練過(guò)程的安全性,上圖的結(jié)構(gòu)就允許模型在不暴露底層數(shù)據(jù)的情況下進(jìn)行訓(xùn)練。模型也被分類。
元模型構(gòu)建(METAMODELS):元模型的構(gòu)建需要考慮各模型的分類算法,在這基礎(chǔ)上重新整合。——當(dāng)然,這一步只是個(gè)可選項(xiàng),你也可以不把所有模型都放在一個(gè)籃子里。
分配收益/損失:經(jīng)過(guò)一個(gè)周期后,我們?cè)诩用茇泿沤灰字匈嵢±麧?rùn)/虧損了,這時(shí)各模型就要承擔(dān)利潤(rùn)/損失分成。這不是一個(gè)一刀切的過(guò)程,有些模型只提供部分積極/消極貢獻(xiàn),而有些模型則全部是積極/消極貢獻(xiàn),系統(tǒng)會(huì)考慮這些因素,并依據(jù)它們的智能程度進(jìn)行獎(jiǎng)懲。這之后,模型會(huì)轉(zhuǎn)向數(shù)據(jù)提供者,并執(zhí)行類似的股權(quán)分發(fā)/削減。
可驗(yàn)證計(jì)算:每個(gè)步驟的計(jì)算可以是集中式的,也可以用安全多方計(jì)算。它能不斷進(jìn)行驗(yàn)證。
為什么這個(gè)系統(tǒng)如此強(qiáng)大?
它能吸引全球最佳數(shù)據(jù)。這個(gè)系統(tǒng)中最有效的部分在于它吸引數(shù)據(jù)的激勵(lì)措施,因?yàn)閿?shù)據(jù)往往是大多數(shù)機(jī)器學(xué)習(xí)任務(wù)的最大限制因素之一。通過(guò)開放式的激勵(lì)機(jī)制,比特幣在全球范圍內(nèi)吸引了大量算力,同理,一個(gè)設(shè)計(jì)合理的激勵(lì)機(jī)制也能為機(jī)器學(xué)習(xí)模型帶來(lái)世界上最好的數(shù)據(jù)。如果還像現(xiàn)在這樣去檢索上百萬(wàn)個(gè)源上的封閉數(shù)據(jù),我們什么都做不了。
算法間的競(jìng)爭(zhēng)。我們現(xiàn)在還無(wú)法擁有這種算法、模型之間全面公開競(jìng)爭(zhēng)的機(jī)會(huì),但我們確實(shí)需要它們。試想一下,如果Facebook的新聞推送算法不是一家獨(dú)大,那它還會(huì)鬧出“數(shù)據(jù)泄露”的丑聞嗎?
獎(jiǎng)勵(lì)透明。在這種機(jī)制下,數(shù)據(jù)提供者和建模人員能看到自己所做貢獻(xiàn)的價(jià)值,并能親身參與計(jì)算驗(yàn)證,這很有可能會(huì)提高他們的參與度。
自動(dòng)化。元模型構(gòu)建完成后,它會(huì)進(jìn)入一個(gè)行動(dòng)閉環(huán),這時(shí)系統(tǒng)是完全自動(dòng)的。換句話說(shuō),這樣的自動(dòng)化能降低貢獻(xiàn)者心中的疑慮。
網(wǎng)絡(luò)效應(yīng)。數(shù)據(jù)提供者和數(shù)據(jù)科學(xué)家之間多面的網(wǎng)絡(luò)效應(yīng)能使系統(tǒng)不斷進(jìn)行自我強(qiáng)化。系統(tǒng)表現(xiàn)越好,它吸引的資金就越多,相應(yīng)的它的潛在支出也就越多——越來(lái)越多的數(shù)據(jù)提供者和數(shù)據(jù)科學(xué)家會(huì)爭(zhēng)相參與其中,并使系統(tǒng)變得更智能。而更智能的系統(tǒng)又會(huì)吸引更多的資本,這就步入了一個(gè)良性循環(huán)。
安全計(jì)算
安全計(jì)算允許模型在數(shù)據(jù)上進(jìn)行訓(xùn)練而不會(huì)泄露數(shù)據(jù)本身。目前被工業(yè)界和學(xué)術(shù)界廣泛使用的安全計(jì)算方法主要有以下三種:同態(tài)加密(HE)、安全多方計(jì)算(MPC)以及零知識(shí)證明(ZKPs)。除去各自的特點(diǎn),這三種方法中又以安全多方計(jì)算目前在機(jī)器學(xué)習(xí)數(shù)據(jù)加密中應(yīng)用得最廣泛,因?yàn)橥瑧B(tài)加密計(jì)算過(guò)慢,而機(jī)器學(xué)習(xí)又顯然不是零知識(shí)證明的對(duì)標(biāo)場(chǎng)景。
也正是因?yàn)檫@一點(diǎn),安全多方計(jì)算在計(jì)算機(jī)科學(xué)研究中一直處于前沿位置,它的技術(shù)瓶頸在于計(jì)算效率太低,但近年來(lái)這種情況也在逐漸好轉(zhuǎn)。
終極推薦系統(tǒng)
為了說(shuō)明個(gè)性化機(jī)器學(xué)習(xí)模型的潛力,我們可以想象一個(gè)名為“終極推薦系統(tǒng)”的應(yīng)用程序,它會(huì)監(jiān)控你在設(shè)備上執(zhí)行的所有操作:瀏覽記錄、在各應(yīng)用中的操作、手機(jī)圖片、位置數(shù)據(jù)、消費(fèi)記錄、可穿戴傳感器、短信等。它控制著你的所有設(shè)備,包括你放在家里的相機(jī),甚至你未來(lái)會(huì)買的相機(jī)。在這些數(shù)據(jù)基礎(chǔ)上,它再向你推薦該訪問(wèn)哪個(gè)網(wǎng)站、看哪篇文章、聽哪首歌或購(gòu)買哪件商品。
這個(gè)推薦系統(tǒng)很高效,比Google、Facebook等其他科技巨頭現(xiàn)有的AI推薦算法智能得多,因?yàn)樗鼘?duì)你本人有非常深刻的了解。但你完全不用擔(dān)心自己的隱私被泄露了,因?yàn)樗粡哪愕臄?shù)據(jù)中學(xué)習(xí),而除了它,沒(méi)有其他的第三者知曉你的情況。以前加密貨幣交易系統(tǒng)也推出過(guò)類似的服務(wù),它通過(guò)個(gè)人用戶在某個(gè)在線市場(chǎng)上的訪問(wèn)情況推薦可用加密貨幣交易的商品,甚至還會(huì)因用戶貢獻(xiàn)數(shù)據(jù)而給予獎(jiǎng)勵(lì)。
谷歌的federated learning和蘋果的differential privacy都是朝個(gè)性化機(jī)器學(xué)習(xí)模型邁出的第一步,但他們?cè)谮A得用戶信任這條路上還任重道遠(yuǎn),因?yàn)檫@兩家公司都把模型的個(gè)性化對(duì)象——用戶個(gè)人排除在了安全性檢查、數(shù)據(jù)存儲(chǔ)以外。
當(dāng)前的區(qū)塊鏈和機(jī)器學(xué)習(xí)
對(duì)于這一切來(lái)說(shuō),現(xiàn)在還很早,早到只有很少的人在做相關(guān)的工作,而他們中的大多數(shù)人都抱著在這塊大蛋糕上咬下第一口的想法。
Algorithmia Research曾建立過(guò)一個(gè)基于區(qū)塊鏈的機(jī)器學(xué)習(xí)模型結(jié)構(gòu),它把元模型的準(zhǔn)確率設(shè)置為高于某個(gè)回測(cè)閾值。
由Algorithmia Research創(chuàng)建的機(jī)器學(xué)習(xí)模型的簡(jiǎn)單構(gòu)造
而Numer.ai則在這個(gè)基礎(chǔ)上分三步走:首先對(duì)數(shù)據(jù)加密(不完全使用同態(tài)加密),其次是把眾包模型結(jié)合進(jìn)元模型中,最后是根據(jù)未來(lái)表現(xiàn)獎(jiǎng)勵(lì)模型,而不是回測(cè)某個(gè)具體的目標(biāo)。數(shù)據(jù)科學(xué)家必須將Numer.ai用做分紅指標(biāo)的加密貨幣Numeraire看成游戲幣,它只會(huì)隨未來(lái)發(fā)生的事增多、減少,而不會(huì)受已有事實(shí)影響(測(cè)試時(shí)的性能)。但是它的一個(gè)缺點(diǎn)是目前只是簡(jiǎn)單地分發(fā)數(shù)據(jù),缺乏對(duì)數(shù)據(jù)科學(xué)家目標(biāo)意識(shí)的鼓勵(lì)。
之前Ocean曾做過(guò)一個(gè)關(guān)于數(shù)據(jù)的區(qū)塊鏈?zhǔn)袌?chǎng),但只是個(gè)雛形,目前該領(lǐng)域還沒(méi)有出現(xiàn)非常成功的案例。
還有一些人在探索計(jì)算機(jī)網(wǎng)絡(luò)安全領(lǐng)域的區(qū)塊鏈應(yīng)用。如Openmined正在創(chuàng)建一個(gè)多方計(jì)算網(wǎng)絡(luò),用于在Unity之上培訓(xùn)機(jī)器學(xué)習(xí)模型,該網(wǎng)絡(luò)可以在任何設(shè)備上運(yùn)行,包括家用游戲機(jī)。
總而言之,這樣一個(gè)迷人市場(chǎng)的最終狀態(tài)會(huì)是參與者彼此共享同一個(gè)元模型,它按數(shù)據(jù)提供者、建模人員的智能貢獻(xiàn)比例分配所有權(quán)。這個(gè)模型將被標(biāo)記化,并隨著時(shí)間的推移向“股民”分發(fā)“股息”,甚至可以被全體“股東”支配。這是一種互相擁有的蜂巢式思維。
啟示
綜合全文,就基于區(qū)塊鏈技術(shù)的機(jī)器學(xué)習(xí)市場(chǎng)這個(gè)想法,我們可以得到以下幾點(diǎn)啟示。
首先,分散式機(jī)器學(xué)習(xí)市場(chǎng)可以破除目前科技巨頭對(duì)數(shù)據(jù)的壟斷。在過(guò)去的20年中,這些大型公司利用互聯(lián)網(wǎng)來(lái)創(chuàng)造價(jià)值、實(shí)現(xiàn)商品化和標(biāo)準(zhǔn)化,并搜集了大量專用數(shù)據(jù)用于鞏固和加強(qiáng)他們的網(wǎng)絡(luò)效應(yīng)。這樣做的結(jié)果就是,價(jià)值創(chuàng)造從數(shù)據(jù)被轉(zhuǎn)移到了算法上。
科技領(lǐng)域的標(biāo)準(zhǔn)化和商品化周期,數(shù)據(jù)壟斷網(wǎng)絡(luò)時(shí)代即將終結(jié)
換句話說(shuō),他們也為AI創(chuàng)造了一種直接的商業(yè)模式:喂數(shù)據(jù)→訓(xùn)練。
其次,這些公司創(chuàng)造了世界上最強(qiáng)大的AI系統(tǒng),通過(guò)直接的經(jīng)濟(jì)激勵(lì),最好的數(shù)據(jù)和模型被他們收入囊中,而他們的實(shí)力也通過(guò)網(wǎng)絡(luò)效應(yīng)的良性循環(huán)進(jìn)一步增強(qiáng)。隨著Web 2.0時(shí)代的到來(lái),大公司的作為使數(shù)據(jù)壟斷實(shí)現(xiàn)了商品化,而這似乎又成了突破這種壟斷局面的新切入口。雖然幾年內(nèi)數(shù)據(jù)領(lǐng)域的局面不會(huì)有太大變化,但這看起來(lái)是個(gè)正確的方向。
第三,正如之前提到的“終極推薦系統(tǒng)”,我們現(xiàn)有的搜索推薦算法的出發(fā)點(diǎn)是完全顛倒的。大公司是為了增加產(chǎn)品競(jìng)爭(zhēng)力而制定個(gè)性化推薦,而不是出于用戶需要,專門開發(fā)真正精準(zhǔn)的推薦算法。這就帶來(lái)了另一個(gè)機(jī)遇,就是每個(gè)人都可以拓展個(gè)人市場(chǎng),挖掘完全自定義的數(shù)據(jù),并把它們放進(jìn)自己的模型中。
第四,Google和Facebook等公司通過(guò)機(jī)器學(xué)習(xí)開發(fā)了大量受歡迎的應(yīng)用,有了這樣一個(gè)市場(chǎng),我們可以實(shí)現(xiàn)在不泄露個(gè)人隱私的前提下獲得同樣好,甚至更好的技術(shù)體驗(yàn)。
第五,機(jī)器學(xué)習(xí)研究可以更快地推進(jìn),因?yàn)槿魏?a target="_blank">工程師都可以訪問(wèn)開放的數(shù)據(jù)市場(chǎng),而不僅僅是大型Web 2.0公司的一小部分工程師。
挑戰(zhàn)
雖然愿景很美,但在通往Web 3.0的路上,我們還要面對(duì)很多挑戰(zhàn)。首先一個(gè)技術(shù)上的重要難題就是安全計(jì)算方法的效率還是太低了,這大大拉高了機(jī)器學(xué)習(xí)的計(jì)算成本。
我們?cè)谖恼轮卸啻翁岬桨涯P徒Y(jié)合進(jìn)元模型。對(duì)于單個(gè)模型而言,為它找一組特定的測(cè)試集是很容易的,但我們不能把同樣的做法生搬硬套到元模型上,因?yàn)樯婕皬?fù)雜的分類算法,目前要實(shí)現(xiàn)這一點(diǎn)還很難。
雖然市場(chǎng)能解決數(shù)據(jù)問(wèn)題,但這些數(shù)據(jù)的清理工作和格式化工作還是十分繁瑣的。我們現(xiàn)在有不少自動(dòng)化工具,一些小企業(yè)也愿意接眾包的活,但這還是太復(fù)雜了。
最后就是最諷刺的一點(diǎn),我們花一整篇文章講述了如何構(gòu)建一個(gè)廣義上的商業(yè)模式,但一旦涉及實(shí)際落地,可能它還不如直接開一個(gè)數(shù)據(jù)市場(chǎng)來(lái)得簡(jiǎn)單有效。而其中的加密手段也無(wú)非就是市場(chǎng)管理層面的工作。
結(jié)論
總而言之,個(gè)性化機(jī)器學(xué)習(xí)和區(qū)塊鏈的結(jié)合可以在各種應(yīng)用中創(chuàng)造更強(qiáng)大的機(jī)器之能。隨著時(shí)間的推移,它甚至還能解決重大的技術(shù)挑戰(zhàn)。它的潛力是巨大的,它的價(jià)值觀也是符合用戶需要的。但它們又是可怕的——它們引導(dǎo)自我存在、自我強(qiáng)化,消費(fèi)私人數(shù)據(jù),并且?guī)缀醪豢赡荜P(guān)閉——這也是現(xiàn)在加密貨幣緩慢滲透每一個(gè)行業(yè)所帶來(lái)的警示。
-
人工智能
+關(guān)注
關(guān)注
1804文章
48677瀏覽量
246372 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8490瀏覽量
134069 -
區(qū)塊鏈
+關(guān)注
關(guān)注
112文章
15565瀏覽量
107898
原文標(biāo)題:基于區(qū)塊鏈的機(jī)器學(xué)習(xí)市場(chǎng)
文章出處:【微信號(hào):jqr_AI,微信公眾號(hào):論智】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
十大鮮為人知卻功能強(qiáng)大的機(jī)器學(xué)習(xí)模型

**【技術(shù)干貨】Nordic nRF54系列芯片:傳感器數(shù)據(jù)采集與AI機(jī)器學(xué)習(xí)的完美結(jié)合**
傳統(tǒng)機(jī)器學(xué)習(xí)方法和應(yīng)用指導(dǎo)

【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】1.全書概覽與第一章學(xué)習(xí)
如何選擇云原生機(jī)器學(xué)習(xí)平臺(tái)
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
【「具身智能機(jī)器人系統(tǒng)」閱讀體驗(yàn)】+初品的體驗(yàn)
什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

NPU與機(jī)器學(xué)習(xí)算法的關(guān)系
使用機(jī)器學(xué)習(xí)和NVIDIA Jetson邊緣AI和機(jī)器人平臺(tái)打造機(jī)器人導(dǎo)盲犬
LIBS結(jié)合機(jī)器學(xué)習(xí)算法的江西名優(yōu)春茶采收期鑒別

評(píng)論