天仙tv萌白酱女仆喷水视频,精选3p真实良家少妇,梦丝女神免费网站

手工標記大量數(shù)據(jù)始終是開發(fā)機器學(xué)習(xí)的一大瓶頸。斯坦福AI Lab的研究人員探討了一種通過編程方式生成訓(xùn)練數(shù)據(jù)的“弱監(jiān)督”范式，并介紹了他們的開源Snorkel框架。

近年來，機器學(xué)習(xí)(ML)對現(xiàn)實世界的影響越來越大。這在很大程度上是由于深度學(xué)習(xí)模型的出現(xiàn)，使得從業(yè)者可以在基準數(shù)據(jù)集上獲得state-of-the-art的分數(shù)，而無需任何手工特征設(shè)計。考慮到諸如TensorFlow和PyTorch等多種開源ML框架的可用性，以及大量可用的最先進的模型，可以說，高質(zhì)量的ML模型現(xiàn)在幾乎成為一種商品化資源了。然而，有一個隱藏的問題：這些模型依賴于大量手工標記的訓(xùn)練數(shù)據(jù)。

這些手工標記的訓(xùn)練集創(chuàng)建起來既昂貴又耗時——通常需要幾個月甚至幾年的時間、花費大量人力來收集、清理和調(diào)試——尤其是在需要領(lǐng)域?qū)I(yè)知識的情況下。除此之外，任務(wù)經(jīng)常會在現(xiàn)實世界中發(fā)生變化和演變。例如，標記指南、粒度或下游用例都經(jīng)常發(fā)生變化，需要重新標記(例如，不要只將評論分類為正面或負面，還要引入一個中性類別)。

由于這些原因，從業(yè)者越來越多地轉(zhuǎn)向一種較弱的監(jiān)管形式，例如利用外部知識庫、模式/規(guī)則或其他分類器啟發(fā)式地生成訓(xùn)練數(shù)據(jù)。從本質(zhì)上來講，這些都是以編程方式生成訓(xùn)練數(shù)據(jù)的方法，或者更簡潔地說，編程訓(xùn)練數(shù)據(jù)(programming training data)。

在本文中，我們首先回顧了ML中由標記訓(xùn)練數(shù)據(jù)驅(qū)動的一些領(lǐng)域，然后描述了我們對建模和整合各種監(jiān)督源的研究。我們還討論了為大規(guī)模多任務(wù)機制構(gòu)建數(shù)據(jù)管理系統(tǒng)的設(shè)想，這種系統(tǒng)使用數(shù)十或數(shù)百個弱監(jiān)督的動態(tài)任務(wù)，以復(fù)雜、多樣的方式交互。

回顧：如何獲得更多有標簽的訓(xùn)練數(shù)據(jù)？

ML中的許多傳統(tǒng)研究方法也同樣受到對標記訓(xùn)練數(shù)據(jù)的需求的推動。我們首先將這些方法與弱監(jiān)督方法(weak supervision)區(qū)分開來：弱監(jiān)督是利用來自主題領(lǐng)域?qū)＜?subject matter experts，簡稱SME)的更高級別和/或更嘈雜的輸入。

目前主流方法的一個關(guān)鍵問題是，由領(lǐng)域?qū)＜抑苯咏o大量數(shù)據(jù)加標簽是很昂貴的：例如，為醫(yī)學(xué)成像研究構(gòu)建大型數(shù)據(jù)集更加困難，因為跟研究生不同，放射科醫(yī)生可不會接受一點小恩小惠就愿意為你標記數(shù)據(jù)。因此，在ML中，許多經(jīng)過深入研究的工作線都是由于獲取標記訓(xùn)練數(shù)據(jù)的瓶頸所致：

在主動學(xué)習(xí)(ac tive learning)中，目標是讓領(lǐng)域?qū)＜覟楣烙媽δＰ妥钣袃r值的數(shù)據(jù)點貼標簽，從而更有效地利用領(lǐng)域?qū)＜摇Ｔ跇藴实谋O(jiān)督學(xué)習(xí)設(shè)置中，這意味著選擇要標記的新數(shù)據(jù)點。例如，我們可以選擇靠近當前模型決策邊界的乳房X線照片，并要求放射科醫(yī)生僅給這些照片進行標記。但是，我們也可以只要求對這些數(shù)據(jù)點進行較弱的監(jiān)督，在這種情況下，主動學(xué)習(xí)與弱監(jiān)督是完美互補的；這方面的例子可以參考(Druck, settle, and McCallum 2009)。

在半監(jiān)督學(xué)習(xí)(semi-supervised learning )設(shè)置中，我們的目標是用一個小的標記訓(xùn)練集和一個更大的未標記數(shù)據(jù)集。然后使用關(guān)于平滑度、低維結(jié)構(gòu)或距離度量的假設(shè)來利用未標記數(shù)據(jù)(作為生成模型的一部分，或作為一個判別模型的正則項，或?qū)W習(xí)一個緊湊的數(shù)據(jù)表示)；參考閱讀見(Chapelle, Scholkopf, and Zien 2009)。從廣義上講，半監(jiān)督學(xué)習(xí)的理念不是從SME那里尋求更多輸入，而是利用領(lǐng)域和任務(wù)不可知的假設(shè)來利用未經(jīng)標記的數(shù)據(jù)，而這些數(shù)據(jù)通常可以以低成本大量獲得。最近的方法使用生成對抗網(wǎng)絡(luò)(Salimans et al. 2016)、啟發(fā)式轉(zhuǎn)換模型(Laine and Aila 2016)和其他生成方法來有效地幫助規(guī)范化決策邊界。

在典型的遷移學(xué)習(xí)(transfer learning )設(shè)置中，目標是將一個或多個已經(jīng)在不同數(shù)據(jù)集上訓(xùn)練過的模型應(yīng)用于我們的數(shù)據(jù)集和任務(wù)；相關(guān)的綜述見(Pan和Yang 2010)。例如，我們可能已經(jīng)有身體其他部位腫瘤的大型訓(xùn)練集，并在此基礎(chǔ)上訓(xùn)練了分類器，然后希望將其應(yīng)用到我們的乳房X光檢查任務(wù)中。在當今的深度學(xué)習(xí)社區(qū)中，一種常見的遷移學(xué)習(xí)方法是在一個大數(shù)據(jù)集上對模型進行“預(yù)訓(xùn)練”，然后在感興趣的任務(wù)上對其進行“微調(diào)”。另一個相關(guān)的領(lǐng)域是多任務(wù)學(xué)習(xí)(multi-task learning)，其中幾個任務(wù)是共同學(xué)習(xí)的(Caruna 1993; Augenstein, Vlachos, and Maynard 2015)。

上述范例可能讓我們得以不用向領(lǐng)域?qū)＜液献髡邔で箢~外的訓(xùn)練標簽。然而，對某些數(shù)據(jù)進行標記是不可避免的。如果我們要求他們提供各種類型的更高級、或不那么精確的監(jiān)督形式，這些形式可以更快、更簡便地獲取，會怎么樣呢？例如，如果我們的放射科醫(yī)生可以花一個下午的時間來標記一組啟發(fā)式的資源或其他資源，如果處理得當，這些資源可以有效地替代成千上萬的訓(xùn)練標簽，那會怎么樣呢?

將領(lǐng)域知識注入AI

從歷史的角度來看，試圖“編程”人工智能(即注入領(lǐng)域知識)并不是什么新鮮想法，但現(xiàn)在提出這個問題的主要新穎之處在于，AI從未像現(xiàn)在這樣強大，同時在可解釋性和可控制性方面，它還是一個“黑盒”。

在20世紀70年代和80年代，AI的重點是專家系統(tǒng)，它將來自領(lǐng)域?qū)＜业氖止げ邉澋氖聦嵑鸵?guī)則的知識庫結(jié)合起來，并使用推理引擎來應(yīng)用它們。20世紀90年代，ML開始作為將知識集成到AI系統(tǒng)的工具獲得成功，并承諾以強大而靈活的方式從標記的訓(xùn)練數(shù)據(jù)自動實現(xiàn)這一點。

經(jīng)典的(非表示學(xué)習(xí))ML方法通常有兩個領(lǐng)域?qū)＜逸斎?a target="_blank">端口。首先，這些模型通常比現(xiàn)代模型的復(fù)雜度要低得多，這意味著可以使用更少的手工標記數(shù)據(jù)。其次，這些模型依賴于手工設(shè)計的特性，這些特性為編碼、修改和與模型的數(shù)據(jù)基本表示形式交互提供了一種直接的方法。然而，特性工程不管在過去還是現(xiàn)在通常都被認為是ML專家的任務(wù)，他們通常會花費整個博士生涯來為特定的任務(wù)設(shè)計特性。

進入深度學(xué)習(xí)模型：由于它們具有跨許多領(lǐng)域和任務(wù)自動學(xué)習(xí)表示的強大能力，它們在很大程度上避免了特性工程的任務(wù)。然而，它們大部分是完整的黑盒子，除了標記大量的訓(xùn)練集和調(diào)整網(wǎng)絡(luò)架構(gòu)外，普通開發(fā)人員對它們幾乎沒有控制權(quán)。在許多意義上，它們代表了舊的專家系統(tǒng)脆弱但易于控制的規(guī)則的對立面——它們靈活但難以控制。

這使我們從一個略微不同的角度回到了最初的問題：我們?nèi)绾卫梦覀兊念I(lǐng)域知識或任務(wù)專業(yè)知識來編寫現(xiàn)代深度學(xué)習(xí)模型？有沒有辦法將舊的基于規(guī)則的專家系統(tǒng)的直接性與這些現(xiàn)代ML方法的靈活性和強大功能結(jié)合起來？

代碼作為監(jiān)督：通過編程訓(xùn)練ML

Snorkel是我們?yōu)橹С趾吞剿鬟@種與ML的新型交互而構(gòu)建的一個系統(tǒng)。在Snorkel中，我們不使用手工標記的訓(xùn)練數(shù)據(jù)，而是要求用戶編寫標記函數(shù)(labeling functions, LF)，即用于標記未標記數(shù)據(jù)子集的黑盒代碼片段。

然后，我們可以使用一組這樣的LF來為ML模型標記訓(xùn)練數(shù)據(jù)。因為標記函數(shù)只是任意的代碼片段，所以它們可以對任意信號進行編碼：模式、啟發(fā)式、外部數(shù)據(jù)資源、來自群眾工作者的嘈雜標簽、弱分類器等等。而且，作為代碼，我們可以獲得所有其他相關(guān)的好處，比如模塊化、可重用性和可調(diào)試性。例如，如果我們的建模目標發(fā)生了變化，我們可以調(diào)整標記函數(shù)來快速適應(yīng)！

一個問題是，標記函數(shù)會產(chǎn)生有噪聲的輸出，這些輸出可能會重疊和沖突，從而產(chǎn)生不太理想的訓(xùn)練標簽。在Snorkel中，我們使用數(shù)據(jù)編程方法對這些標簽進行去噪，該方法包括三個步驟：

1.我們將標記函數(shù)應(yīng)用于未標記的數(shù)據(jù)。

2.我們使用一個生成模型來在沒有任何標記數(shù)據(jù)的條件下學(xué)習(xí)標記函數(shù)的準確性，并相應(yīng)地對它們的輸出進行加權(quán)。我們甚至可以自動學(xué)習(xí)它們的關(guān)聯(lián)結(jié)構(gòu)。

3.生成模型輸出一組概率訓(xùn)練標簽，我們可以使用這些標簽來訓(xùn)練一個強大、靈活的判別模型(如深度神經(jīng)網(wǎng)絡(luò))，它將泛化到標記函數(shù)表示的信號之外。

可以認為，這整個pipeline為“編程”ML模型提供了一種簡單、穩(wěn)健且與模型無關(guān)的方法！

標記函數(shù)(Labeling Functions)

從生物醫(yī)學(xué)文獻中提取結(jié)構(gòu)化信息是最能激勵我們的應(yīng)用之一：大量有用的信息被有效地鎖在數(shù)百萬篇科學(xué)論文的密集非結(jié)構(gòu)化文本中。我們希望用機器學(xué)習(xí)來提取這些信息，進而使用這些信息來診斷遺傳性疾病。

考慮這樣一個任務(wù)：從科學(xué)文獻中提取某種化學(xué)-疾病的關(guān)系。我們可能沒有足夠大的標記訓(xùn)練數(shù)據(jù)集來完成這項任務(wù)。然而，在生物醫(yī)學(xué)領(lǐng)域，存在著豐富的知識本體、詞典等資源，其中包括各種化學(xué)與疾病名稱數(shù)據(jù)、各種類型的已知化學(xué)-疾病關(guān)系數(shù)據(jù)庫等，我們可以利用這些資源來為我們的任務(wù)提供弱監(jiān)督。此外，我們還可以與生物學(xué)領(lǐng)域的合作者一起提出一系列特定于任務(wù)的啟發(fā)式、正則表達式模式、經(jīng)驗法則和負標簽生成策略。

作為一種表示載體的生成模型

在我們的方法中，我們認為標記函數(shù)隱含地描述了一個生成模型。讓我們來快速復(fù)習(xí)一下：給定數(shù)據(jù)點x，以及我們想要預(yù)測的未知標簽y，在判別方法中，我們直接對P(y|x)建模，而在生成方法中，我們對P(x,y) = P(x|y)P(y)建模。在我們的例子中，我們建模一個訓(xùn)練集標記的過程P(L,y)，其中L是由對象x的標記函數(shù)生成的標簽，y是對應(yīng)的(未知的)真實標簽。通過學(xué)習(xí)生成模型，并直接估計P(L|y)，我們本質(zhì)上是在根據(jù)它們?nèi)绾沃丿B和沖突來學(xué)習(xí)標記函數(shù)的相對準確性(注意，我們不需要知道y!)

我們使用這個估計的生成模型在標簽函數(shù)上訓(xùn)練一個噪聲感知版本的最終判別模型。為了做到這一點，生成模型推斷出訓(xùn)練數(shù)據(jù)的未知標簽的概率，然后我們最小化關(guān)于這些概率的判別模型的預(yù)期損失。

估計這些生成模型的參數(shù)可能非常棘手，特別是當使用的標記函數(shù)之間存在統(tǒng)計依賴性時。在Data Programming: Creating Large Training Sets, Quickly(https://arxiv.org/abs/1605.07723)這篇論文中，我們證明了給定足夠的標記函數(shù)的條件下，可以得到與監(jiān)督方法相同的asymptotic scaling。我們還研究了如何在不使用標記數(shù)據(jù)的情況下學(xué)習(xí)標記函數(shù)之間的相關(guān)性，以及如何顯著提高性能。

Snorkel：一個開源的框架

在我們最近發(fā)表的關(guān)于Snorkel的論文(https://arxiv.org/abs/1711.10160)中，我們發(fā)現(xiàn)在各種實際應(yīng)用中，這種與現(xiàn)代ML模型交互的新方法非常有效！包括:

1.在一個關(guān)于Snorkel的研討會上，我們進行了一項用戶研究，比較了教SMEs使用Snorkel的效率，以及花同樣的時間進行純手工標記數(shù)據(jù)的效率。我們發(fā)現(xiàn)，使用Snorkel構(gòu)建模型不僅快了2.8倍，而且平均預(yù)測性能也提高了45.5%。

2.在與斯坦福大學(xué)、美國退伍軍人事務(wù)部和美國食品和藥物管理局的研究人員合作的兩個真實的文本關(guān)系提取任務(wù)，以及其他四個基準文本和圖像任務(wù)中，我們發(fā)現(xiàn)，與baseline技術(shù)相比，Snorkel平均提高了132%。

3.我們探索了如何對用戶提供的標記函數(shù)建模的新的權(quán)衡空間，從而得到了一個基于規(guī)則的優(yōu)化器，用于加速迭代開發(fā)周期。

下一步：大規(guī)模多任務(wù)弱監(jiān)管

我們實驗室正在進行各種努力，將Snorkel設(shè)想的弱監(jiān)督交互模型擴展到其他模式，如格式豐富的數(shù)據(jù)和圖像、使用自然語言的監(jiān)督任務(wù)和自動生成標簽函數(shù)！

在技術(shù)方面，我們感興趣的是擴展Snorkel的核心數(shù)據(jù)編程模型，使其更容易指定具有更高級別接口(如自然語言)的標記函數(shù)，以及結(jié)合其他類型的弱監(jiān)督(如數(shù)據(jù)增強)。

多任務(wù)學(xué)習(xí)(MTL)場景的普及也引發(fā)了這樣一個問題：當嘈雜的、可能相關(guān)的標簽源現(xiàn)在要標記多個相關(guān)任務(wù)時會發(fā)生什么？我們是否可以通過對這些任務(wù)進行聯(lián)合建模來獲益？我們在一個新的多任務(wù)感知版本的Snorkel，即Snorkel MeTaL中解決了這些問題，它可以支持多任務(wù)弱監(jiān)管源，為一個或多個相關(guān)任務(wù)提供噪聲標簽。

我們考慮的一個例子是設(shè)置具有不同粒度的標簽源。例如，假設(shè)我們打算訓(xùn)練一個細粒度的命名實體識別(NER)模型來標記特定類型的人和位置，并且我們有一些細粒度的嘈雜標簽，例如標記“律師”與“醫(yī)生”，或“銀行”與“醫(yī)院”；以及有些是粗粒度的，例如標記“人”與“地點”。通過將這些資源表示為標記不同層次相關(guān)的任務(wù)，我們可以聯(lián)合建模它們的準確性，并重新加權(quán)和組合它們的多任務(wù)標簽，從而創(chuàng)建更清晰、智能聚合的多任務(wù)訓(xùn)練數(shù)據(jù)，從而提高最終MTL模型的性能。

我們相信，為MTL構(gòu)建數(shù)據(jù)管理系統(tǒng)最激動人心的方面將圍繞大規(guī)模多任務(wù)機制(massivelymulti-task regime)，在這種機制中，數(shù)十到數(shù)百個弱監(jiān)督(因而高度動態(tài))的任務(wù)以復(fù)雜、多樣的方式交互。

雖然迄今為止大多數(shù)MTL工作都考慮最多處理由靜態(tài)手工標記訓(xùn)練集定義的少數(shù)幾項任務(wù)，但世界正在迅速發(fā)展成組織(無論是大公司、學(xué)術(shù)實驗室還是在線社區(qū))都要維護數(shù)以百計的弱監(jiān)督、快速變化且相互依賴的建模任務(wù)。此外，由于這些任務(wù)是弱監(jiān)督的，開發(fā)人員可以在數(shù)小時或數(shù)天內(nèi)(而不是數(shù)月或數(shù)年)添加、刪除或更改任務(wù)(即訓(xùn)練集)，這可能需要重新訓(xùn)練整個模型。

在最近的一篇論文The Role of Massively Multi-Task and Weak Supervision in Software 2.0 (http://cidrdb.org/cidr2019/papers/p58-ratner-cidr19.pdf)中，我們概述了針對上述問題的一些初步想法，設(shè)想了一個大規(guī)模的多任務(wù)設(shè)置，其中MTL模型有效地用作一個訓(xùn)練由不同開發(fā)人員弱標記的數(shù)據(jù)的中央存儲庫，然后組合在一個中央“mother”多任務(wù)模型中。

不管確切的形式因素是什么，很明顯，MTL技術(shù)在未來有許多令人興奮的進展——不僅是新的模型架構(gòu)，而且還與遷移學(xué)習(xí)方法、新的弱監(jiān)督方法、新的軟件開發(fā)和系統(tǒng)范例日益統(tǒng)一。

聲明：本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人，不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用，如有內(nèi)容侵權(quán)或者其他違規(guī)問題，請聯(lián)系本站處理。舉報投訴

AI

AI

+關(guān)注

關(guān)注
88

文章
35093

瀏覽量
279457
機器學(xué)習(xí)

機器學(xué)習(xí)

+關(guān)注

關(guān)注
66

文章
8501

瀏覽量
134572
數(shù)據(jù)集

數(shù)據(jù)集

+關(guān)注

關(guān)注
4

文章
1224

瀏覽量
25438

原文標題：放棄手工標記數(shù)據(jù)，斯坦福大學(xué)開發(fā)弱監(jiān)督編程范式Snorkel

文章出處：【微信號：AI_era，微信公眾號：新智元】歡迎添加關(guān)注！文章轉(zhuǎn)載請注明出處。

女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

搜索歷史

一種通過編程方式生成訓(xùn)練數(shù)據(jù)的“弱監(jiān)督”范式

評論