高效的機(jī)器學(xué)習(xí)模型需要高質(zhì)量的數(shù)據(jù)。訓(xùn)練你的機(jī)器學(xué)習(xí)模型并不是過(guò)程中的單個(gè)有限階段。即使將其部署到生產(chǎn)環(huán)境中,也可能需要穩(wěn)定的新訓(xùn)練數(shù)據(jù)流來(lái)確保模型隨時(shí)間推移的預(yù)測(cè)準(zhǔn)確性。
畢竟,訓(xùn)練數(shù)據(jù)會(huì)顯式地調(diào)用數(shù)據(jù)集中的屬性,這些屬性代表外部世界中不斷變化的基本事實(shí)。如果不進(jìn)行周期性的重新訓(xùn)練,隨著現(xiàn)實(shí)世界變量的演變,模型的準(zhǔn)確性自然會(huì)隨時(shí)間下降。
在本文中,我們將討論為什么不管你的初始訓(xùn)練數(shù)據(jù)過(guò)程多么嚴(yán)格,繼續(xù)訓(xùn)練你的機(jī)器學(xué)習(xí)模型都是至關(guān)重要的。我們還將討論再訓(xùn)練的方法以及每種方法的優(yōu)點(diǎn)。
最后,我們將介紹如何在任何機(jī)器學(xué)習(xí)項(xiàng)目開(kāi)始時(shí)預(yù)見(jiàn)對(duì)后續(xù)更新的需求。通過(guò)從一開(kāi)始就建立再訓(xùn)練流程,幫你設(shè)計(jì)一個(gè)可持續(xù)的預(yù)測(cè)模型。
數(shù)據(jù)漂移與再訓(xùn)練需求
為什么大多數(shù)機(jī)器學(xué)習(xí)模型都需要更新才能保持準(zhǔn)確性?答案在于訓(xùn)練數(shù)據(jù)的性質(zhì)以及它如何告知機(jī)器學(xué)習(xí)模型的預(yù)測(cè)功能。
訓(xùn)練數(shù)據(jù)是一個(gè)靜態(tài)數(shù)據(jù)集,機(jī)器學(xué)習(xí)模型可從該數(shù)據(jù)集中推斷出模式和關(guān)系,并形成對(duì)未來(lái)的預(yù)測(cè)。
隨著現(xiàn)實(shí)世界條件的變化,訓(xùn)練數(shù)據(jù)的基本事實(shí)方面表示可能會(huì)不太準(zhǔn)確。想象一下用于預(yù)測(cè)50個(gè)大型都會(huì)區(qū)租金成本的機(jī)器學(xué)習(xí)模型。從2000年到2019年的訓(xùn)練數(shù)據(jù)可能會(huì)以驚人的準(zhǔn)確性預(yù)測(cè)2020年的租金價(jià)格。在預(yù)測(cè)2050年的租金價(jià)格時(shí),這種方法可能會(huì)不太有效,因?yàn)榉康禺a(chǎn)市場(chǎng)的基本性質(zhì)可能在未來(lái)幾十年內(nèi)發(fā)生變化。
應(yīng)用自然語(yǔ)言處理(NLP)來(lái)訓(xùn)練聊天機(jī)器人提供了數(shù)據(jù)漂移的另一個(gè)有用的例子。我們使用語(yǔ)言的方式正在不斷演變,因此必須更新用于聊天機(jī)器人的訓(xùn)練數(shù)據(jù)的語(yǔ)義分析,來(lái)反映當(dāng)前的語(yǔ)言。想象一下,嘗試使用1980年代的培訓(xùn)數(shù)據(jù)來(lái)訓(xùn)練聊天機(jī)器人與現(xiàn)代消費(fèi)者進(jìn)行互動(dòng)。在40年中,語(yǔ)言可能會(huì)發(fā)生重大變化,這迫使人們需要更新訓(xùn)練數(shù)據(jù)。
這一現(xiàn)象已經(jīng)有了多種描述方法,包括數(shù)據(jù)漂移、概念漂移和模型衰減。不管你怎么稱呼它,它都代表了機(jī)器學(xué)習(xí)的硬道理:在未來(lái)的某個(gè)時(shí)候,你的訓(xùn)練數(shù)據(jù)將不再為準(zhǔn)確的預(yù)測(cè)提供基礎(chǔ)。
如何應(yīng)對(duì)這個(gè)不可避免的挑戰(zhàn)呢?答案是定期使用新的或擴(kuò)展的數(shù)據(jù)重新訓(xùn)練你的模型。實(shí)際上,訓(xùn)練你的模型是一個(gè)持續(xù)的過(guò)程,特別是在質(zhì)量要求很高的情況下。
你應(yīng)該如何更新你的機(jī)器學(xué)習(xí)模型?簡(jiǎn)單來(lái)說(shuō),你有兩個(gè)選擇:使用更新的輸入手動(dòng)重新訓(xùn)練模型,或構(gòu)建一個(gè)旨在從新數(shù)據(jù)中不斷學(xué)習(xí)的模型。
手動(dòng)模型重新訓(xùn)練方法
手動(dòng)更新機(jī)器學(xué)習(xí)模型的方法本質(zhì)上是復(fù)制你的初始訓(xùn)練數(shù)據(jù)過(guò)程,但要使用一組更新的數(shù)據(jù)輸入。在這種情況下,你可以決定如何以及何時(shí)向算法提供新數(shù)據(jù)。
此選項(xiàng)的可行性取決于你定期獲取和準(zhǔn)備新訓(xùn)練數(shù)據(jù)的能力。你可以隨時(shí)監(jiān)控模型的性能,確定何時(shí)需要更新。如果模型的準(zhǔn)確性明顯下降,則可能需要對(duì)更新的數(shù)據(jù)進(jìn)行重新訓(xùn)練。
這種方法的優(yōu)點(diǎn)之一是修修補(bǔ)補(bǔ)通常可以帶來(lái)真知灼見(jiàn)和創(chuàng)新。如果密切監(jiān)視模型并找出缺點(diǎn),你可能會(huì)發(fā)現(xiàn)包含額外數(shù)據(jù)或以更基本的方式修改算法的價(jià)值。
模型訓(xùn)練的持續(xù)學(xué)習(xí)方法
持續(xù)學(xué)習(xí)模型通常會(huì)從部署了數(shù)據(jù)的生產(chǎn)環(huán)境中合并新的數(shù)據(jù)流。
消費(fèi)者每天都會(huì)參與持續(xù)學(xué)習(xí)的機(jī)器學(xué)習(xí)模型。以音樂(lè)流媒體平臺(tái)Spotify為例,該平臺(tái)使用協(xié)作過(guò)濾功能,根據(jù)具有相似愛(ài)好的其他用戶的偏好向用戶提供推薦,來(lái)創(chuàng)造價(jià)值和競(jìng)爭(zhēng)優(yōu)勢(shì)。
當(dāng)Spotify用戶收聽(tīng)音樂(lè)時(shí),與他們的選擇有關(guān)的數(shù)據(jù)會(huì)反饋到公司的預(yù)測(cè)算法中。由此產(chǎn)生的反饋循環(huán)完善了該應(yīng)用為其用戶提供的推薦,并允許高級(jí)個(gè)性化設(shè)置,例如機(jī)器生成的個(gè)性化播放列表。Netflix等其他領(lǐng)先的消費(fèi)媒體服務(wù)提供商也使用類似的持續(xù)學(xué)習(xí)系統(tǒng)。
如你所料,構(gòu)建這些系統(tǒng)所需的技術(shù)專業(yè)知識(shí)和資源對(duì)于許多組織來(lái)說(shuō)根本無(wú)法滿足。此外,你需要穩(wěn)定的數(shù)據(jù)流來(lái)進(jìn)行自動(dòng)集成。在持續(xù)學(xué)習(xí)模型中,人為干預(yù)是可能的,但它代表了一個(gè)真正的瓶頸。例如,Spotify在將其數(shù)百萬(wàn)用戶生成的數(shù)據(jù)反饋回其算法之前,不需要對(duì)其進(jìn)行清理或格式化。
無(wú)論是手動(dòng)更新還是持續(xù)學(xué)習(xí)似乎都是更有效(可行)的選擇,你需要從戰(zhàn)略上考慮用于生成新數(shù)據(jù)來(lái)進(jìn)行再培訓(xùn)的勞動(dòng)力和技術(shù)。如果你打算在可預(yù)見(jiàn)的將來(lái)使用你的模型,則需要合適的資源來(lái)保持該模型最新。
預(yù)測(cè)進(jìn)化:選擇團(tuán)隊(duì)
創(chuàng)建訓(xùn)練數(shù)據(jù)需要人員、流程和工具的戰(zhàn)略組合。要解決收集、清理和標(biāo)記數(shù)據(jù)的模糊性,你需要一個(gè)高效的技術(shù)人員團(tuán)隊(duì),其中包括熟練的技術(shù)人員和先進(jìn)的技術(shù)。
許多組織無(wú)法管理或擴(kuò)展內(nèi)部團(tuán)隊(duì)來(lái)準(zhǔn)備訓(xùn)練數(shù)據(jù),因此他們尋求利用人類智能的替代方法。眾包勞動(dòng)力是一種常見(jiàn)選擇,它使你可以在短時(shí)間內(nèi)找到數(shù)百名匿名工人。
然而,匿名眾包帶來(lái)了隱性成本,包括與員工的溝通不暢,這可能導(dǎo)致工作質(zhì)量低下。而且,如果在開(kāi)發(fā)初期訓(xùn)練數(shù)據(jù)集時(shí)這些缺點(diǎn)很明顯,那么當(dāng)你嘗試重新訓(xùn)練和更新模型時(shí),這些缺點(diǎn)將讓人特別沮喪。
在一群匿名的眾包工人的情況下,幾乎不可能進(jìn)行監(jiān)督或轉(zhuǎn)移機(jī)構(gòu)記憶。每次開(kāi)發(fā)新的訓(xùn)練數(shù)據(jù)時(shí),都有發(fā)現(xiàn)新的不一致和性能問(wèn)題的風(fēng)險(xiǎn)。
或許你也可以選擇另一種方式,將這個(gè)問(wèn)題外包給靠譜的、專業(yè)解決這種問(wèn)題的企業(yè),會(huì)更有保障。
-
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134603 -
數(shù)據(jù)集
+關(guān)注
關(guān)注
4文章
1224瀏覽量
25446
發(fā)布評(píng)論請(qǐng)先 登錄
在任何平臺(tái)上使用PetaLinux的先決條件

如何成為一名合格的KaihongOS北向應(yīng)用開(kāi)發(fā)工程師
S32K118EVB-Q064如何在firs幀后停止tx?
可以在任何FLEXCOMM接口上使用MDIO嗎?
人臉識(shí)別指南:如何在樹(shù)莓派上安裝和設(shè)置 Dlib

如何成為一名合格的北向應(yīng)用開(kāi)發(fā)工程師
《具身智能機(jī)器人系統(tǒng)》第7-9章閱讀心得之具身智能機(jī)器人與大模型
什么是機(jī)器學(xué)習(xí)?通過(guò)機(jī)器學(xué)習(xí)方法能解決哪些問(wèn)題?

評(píng)論