欧美jizzhd精品欧美巨大,亚洲成高清日本亚洲成高清,免费在线观看-电影

電子發燒友網報道（文/李彎彎）最近爆火的ChatGPT有多強大，想必大家都已經知曉，它幾乎可以生成任何形式的文本，從莎士比亞的十四行詩，到用5歲孩子都能理解的語言描述，以及復雜數學問題，也因此月活躍用戶在短短上線兩個月就達到1億。

而強大的ChatGPT背后，離不開一項重要的工作，那就是數據標注。據美媒報道，為了訓練ChatGPT，OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達和印度的外包員工，對龐大的數據庫手動進行數據標注。

什么是數據標注

事實上，人工智能是一種可以根據人類需求做出合理行為的計算機程序，要想實現人工智能，就需要把人類的理解能力和判斷能力教給計算機，讓計算機擁有類似人類的識別能力。在這一過程中，需要計算機模仿人類進行經驗學習。

而數據標注就是把需要計算機進行機器學習的的圖片、視頻等初級數據打上標簽，讓計算機不斷的識別這些初級數據的特征，最終可以讓計算機能夠自主的識別。

這里涉及到幾個概念：1、數據標注，簡單來說，就是對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽，來滿足機器訓練學習的需求。2、標簽，就是對需要機器學習的數據進行標識特征、類別和屬性等，用于建立數據和機器訓練學習的可讀數據編碼間的聯系。3、數據標注員，就是負責對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽的工作人員。

計算機特征數據主要分為圖像數據、語音數據、文本數據等。在自然語言處理的需求中，文本數據標注是關鍵環節，數據標注員需要通過對語句分詞的標注、語義判斷的標注、情感標注、多音字標注等，為人工智能機器學習提供高準確率的文本語料。

數據標注的流程，首先是從數據采集開始，由于新采集的數據是非結構化的，有些數據不完整，還有不一致、有雜音噪聲的數據，需要通過數據清洗，對采集的數據進行篩選、去重、查缺補漏、平滑噪音等操作，將數據清理成適合標注的格式。

接著，數據經過清洗后，就可以進入數據標注的核心環節。在現實的標注工作中，數據管理員會將數據根據不同的需求，將待標注的數據分為不同的數據包任務，每一個數據任務都會有不同的規范和標注形式要求，然后將標注任務分配給多個標注員進行標注工作。

最后，為了提高數據輸出的正確率，標注員完成標注工作后，需要質檢師對數據進行檢驗，最終通過質檢環節的數據才是可用于訓練學習的數據。

龐大的數據標注工作，和低水平的報酬

從ChatGPT來看，雖然對于ChatGPT最后的強大能力來說，數據標注是重要的一環，然而這卻是一項工作量及其龐大，報酬卻并不高的工作。

雖然ChatGPT的前身GPT-3已經展示出非常強大的語句串聯的能力。然而，當時的GPT-3卻存在很多弊端，例如內容容易出現暴力、性別歧視等言論。之所以會出現這樣的不足之處，是因為AI工具從互聯網抓取了數千億個單詞來訓練。由于互聯網的詞匯有不少帶有偏見及負面的詞匯，因此單純憑借學習能力無法來清除這些訓練數據。

為了獲得這些有害內容的標簽，OpenAI從2021年11月開始便向一家外包公司發送了數萬條文本片段。這家公司便是Sama，Sama總部位于美國舊金山，該公司雇傭了肯尼亞、烏干達和印度的外包員工。大約30多名工作人員被分成三個小組，每個小組都專注于一個主題。據該公司的三名員工表示，他們每9個小時要閱讀和標注150~200段文字，這些段落的范圍從100個單詞到1000多個單詞不等。

薪酬方面，Sama為OpenAI雇傭的數據標簽員工支付的時薪在1.32美元~2美元之間（約8.99元~13.62元），具體取決于資歷和表現。據Sama員工透露，“代理商”是三個小組中最初級的數據標簽人員，他們的基本工資為每月2.1萬肯尼亞先令（約170美元或者約1158元）。此外，他們每月還能獲得約70美元的獎金，如果達到準確性和速度等關鍵績效指標，他們還可以獲得傭金。

按此計算，一名每天工作9小時的員工預計稅后時薪至少能拿1.32美元，如果超額完成所有目標，則最高可達到1.44美元。質量分析師是資歷更深的數據標簽員工，他們的工作是檢查“代理商”的工作，如果他們達到了所有績效目標，時薪可以拿到2美元。

OpenAI發言人曾在一份聲明中證實，Sama在肯尼亞的員工為該公司正在開發的監測有害內容的工具作出了貢獻，該工具最終被內置到ChatGPT中。

小結

隨著ChatGPT的爆火，人工智能走進了更多人的視野。然而從目前的情況來看，人們印象中的人工智能仍然是很高端的事物，只有科技、互聯網巨頭企業及專業人士才能涉足的領域。然而人工智能產業鏈涉及面廣泛，其中就包括數據標注。可以看到，人工智能的存在和實現，不僅僅是解放人們的雙手，同時從這個層面來看，它對勞動力的需求也是龐大的。

聲明：本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人，不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用，如有內容侵權或者其他違規問題，請聯系本站處理。舉報投訴