電子發燒友網報道(文/李彎彎)最近爆火的ChatGPT有多強大,想必大家都已經知曉,它幾乎可以生成任何形式的文本,從莎士比亞的十四行詩,到用5歲孩子都能理解的語言描述,以及復雜數學問題,也因此月活躍用戶在短短上線兩個月就達到1億。
而強大的ChatGPT背后,離不開一項重要的工作,那就是數據標注。據美媒報道,為了訓練ChatGPT,OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達和印度的外包員工,對龐大的數據庫手動進行數據標注。
什么是數據標注
事實上,人工智能是一種可以根據人類需求做出合理行為的計算機程序,要想實現人工智能,就需要把人類的理解能力和判斷能力教給計算機,讓計算機擁有類似人類的識別能力。在這一過程中,需要計算機模仿人類進行經驗學習。
而數據標注就是把需要計算機進行機器學習的的圖片、視頻等初級數據打上標簽,讓計算機不斷的識別這些初級數據的特征,最終可以讓計算機能夠自主的識別。
這里涉及到幾個概念:1、數據標注,簡單來說,就是對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽,來滿足機器訓練學習的需求。2、標簽,就是對需要機器學習的數據進行標識特征、類別和屬性等,用于建立數據和機器訓練學習的可讀數據編碼間的聯系。3、數據標注員,就是負責對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽的工作人員。
計算機特征數據主要分為圖像數據、語音數據、文本數據等。在自然語言處理的需求中,文本數據標注是關鍵環節,數據標注員需要通過對語句分詞的標注、語義判斷的標注、情感標注、多音字標注等,為人工智能機器學習提供高準確率的文本語料。
數據標注的流程,首先是從數據采集開始,由于新采集的數據是非結構化的,有些數據不完整,還有不一致、有雜音噪聲的數據,需要通過數據清洗,對采集的數據進行篩選、去重、查缺補漏、平滑噪音等操作,將數據清理成適合標注的格式。
接著,數據經過清洗后,就可以進入數據標注的核心環節。在現實的標注工作中,數據管理員會將數據根據不同的需求,將待標注的數據分為不同的數據包任務,每一個數據任務都會有不同的規范和標注形式要求,然后將標注任務分配給多個標注員進行標注工作。
最后,為了提高數據輸出的正確率,標注員完成標注工作后,需要質檢師對數據進行檢驗,最終通過質檢環節的數據才是可用于訓練學習的數據。
龐大的數據標注工作,和低水平的報酬
從ChatGPT來看,雖然對于ChatGPT最后的強大能力來說,數據標注是重要的一環,然而這卻是一項工作量及其龐大,報酬卻并不高的工作。
雖然ChatGPT的前身GPT-3已經展示出非常強大的語句串聯的能力。然而,當時的GPT-3卻存在很多弊端,例如內容容易出現暴力、性別歧視等言論。之所以會出現這樣的不足之處,是因為AI工具從互聯網抓取了數千億個單詞來訓練。由于互聯網的詞匯有不少帶有偏見及負面的詞匯,因此單純憑借學習能力無法來清除這些訓練數據。
為了獲得這些有害內容的標簽,OpenAI從2021年11月開始便向一家外包公司發送了數萬條文本片段。這家公司便是Sama,Sama總部位于美國舊金山,該公司雇傭了肯尼亞、烏干達和印度的外包員工。大約30多名工作人員被分成三個小組,每個小組都專注于一個主題。據該公司的三名員工表示,他們每9個小時要閱讀和標注150~200段文字,這些段落的范圍從100個單詞到1000多個單詞不等。
薪酬方面,Sama為OpenAI雇傭的數據標簽員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現。據Sama員工透露,“代理商”是三個小組中最初級的數據標簽人員,他們的基本工資為每月2.1萬肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎金,如果達到準確性和速度等關鍵績效指標,他們還可以獲得傭金。
按此計算,一名每天工作9小時的員工預計稅后時薪至少能拿1.32美元,如果超額完成所有目標,則最高可達到1.44美元。質量分析師是資歷更深的數據標簽員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標,時薪可以拿到2美元。
OpenAI發言人曾在一份聲明中證實,Sama在肯尼亞的員工為該公司正在開發的監測有害內容的工具作出了貢獻,該工具最終被內置到ChatGPT中。
小結
隨著ChatGPT的爆火,人工智能走進了更多人的視野。然而從目前的情況來看,人們印象中的人工智能仍然是很高端的事物,只有科技、互聯網巨頭企業及專業人士才能涉足的領域。然而人工智能產業鏈涉及面廣泛,其中就包括數據標注。可以看到,人工智能的存在和實現,不僅僅是解放人們的雙手,同時從這個層面來看,它對勞動力的需求也是龐大的。
而強大的ChatGPT背后,離不開一項重要的工作,那就是數據標注。據美媒報道,為了訓練ChatGPT,OpenAI的合作伙伴Sama雇傭了肯尼亞、烏干達和印度的外包員工,對龐大的數據庫手動進行數據標注。
什么是數據標注
事實上,人工智能是一種可以根據人類需求做出合理行為的計算機程序,要想實現人工智能,就需要把人類的理解能力和判斷能力教給計算機,讓計算機擁有類似人類的識別能力。在這一過程中,需要計算機模仿人類進行經驗學習。
而數據標注就是把需要計算機進行機器學習的的圖片、視頻等初級數據打上標簽,讓計算機不斷的識別這些初級數據的特征,最終可以讓計算機能夠自主的識別。
這里涉及到幾個概念:1、數據標注,簡單來說,就是對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽,來滿足機器訓練學習的需求。2、標簽,就是對需要機器學習的數據進行標識特征、類別和屬性等,用于建立數據和機器訓練學習的可讀數據編碼間的聯系。3、數據標注員,就是負責對文本、圖像、音頻、視頻等數據進行高質量、高精度的處理打標簽的工作人員。
計算機特征數據主要分為圖像數據、語音數據、文本數據等。在自然語言處理的需求中,文本數據標注是關鍵環節,數據標注員需要通過對語句分詞的標注、語義判斷的標注、情感標注、多音字標注等,為人工智能機器學習提供高準確率的文本語料。
數據標注的流程,首先是從數據采集開始,由于新采集的數據是非結構化的,有些數據不完整,還有不一致、有雜音噪聲的數據,需要通過數據清洗,對采集的數據進行篩選、去重、查缺補漏、平滑噪音等操作,將數據清理成適合標注的格式。
接著,數據經過清洗后,就可以進入數據標注的核心環節。在現實的標注工作中,數據管理員會將數據根據不同的需求,將待標注的數據分為不同的數據包任務,每一個數據任務都會有不同的規范和標注形式要求,然后將標注任務分配給多個標注員進行標注工作。
最后,為了提高數據輸出的正確率,標注員完成標注工作后,需要質檢師對數據進行檢驗,最終通過質檢環節的數據才是可用于訓練學習的數據。
龐大的數據標注工作,和低水平的報酬
從ChatGPT來看,雖然對于ChatGPT最后的強大能力來說,數據標注是重要的一環,然而這卻是一項工作量及其龐大,報酬卻并不高的工作。
雖然ChatGPT的前身GPT-3已經展示出非常強大的語句串聯的能力。然而,當時的GPT-3卻存在很多弊端,例如內容容易出現暴力、性別歧視等言論。之所以會出現這樣的不足之處,是因為AI工具從互聯網抓取了數千億個單詞來訓練。由于互聯網的詞匯有不少帶有偏見及負面的詞匯,因此單純憑借學習能力無法來清除這些訓練數據。
為了獲得這些有害內容的標簽,OpenAI從2021年11月開始便向一家外包公司發送了數萬條文本片段。這家公司便是Sama,Sama總部位于美國舊金山,該公司雇傭了肯尼亞、烏干達和印度的外包員工。大約30多名工作人員被分成三個小組,每個小組都專注于一個主題。據該公司的三名員工表示,他們每9個小時要閱讀和標注150~200段文字,這些段落的范圍從100個單詞到1000多個單詞不等。
薪酬方面,Sama為OpenAI雇傭的數據標簽員工支付的時薪在1.32美元~2美元之間(約8.99元~13.62元),具體取決于資歷和表現。據Sama員工透露,“代理商”是三個小組中最初級的數據標簽人員,他們的基本工資為每月2.1萬肯尼亞先令(約170美元或者約1158元)。此外,他們每月還能獲得約70美元的獎金,如果達到準確性和速度等關鍵績效指標,他們還可以獲得傭金。
按此計算,一名每天工作9小時的員工預計稅后時薪至少能拿1.32美元,如果超額完成所有目標,則最高可達到1.44美元。質量分析師是資歷更深的數據標簽員工,他們的工作是檢查“代理商”的工作,如果他們達到了所有績效目標,時薪可以拿到2美元。
OpenAI發言人曾在一份聲明中證實,Sama在肯尼亞的員工為該公司正在開發的監測有害內容的工具作出了貢獻,該工具最終被內置到ChatGPT中。
小結
隨著ChatGPT的爆火,人工智能走進了更多人的視野。然而從目前的情況來看,人們印象中的人工智能仍然是很高端的事物,只有科技、互聯網巨頭企業及專業人士才能涉足的領域。然而人工智能產業鏈涉及面廣泛,其中就包括數據標注。可以看到,人工智能的存在和實現,不僅僅是解放人們的雙手,同時從這個層面來看,它對勞動力的需求也是龐大的。
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
ChatGPT
+關注
關注
29文章
1587瀏覽量
8799
發布評論請先 登錄
相關推薦
熱點推薦
數據標注與大模型的雙向賦能:效率與性能的躍升
??在人工智能蓬勃發展的時代,大模型憑借其強大的學習與泛化能力,已成為眾多領域創新變革的核心驅動力。而數據標注作為大模型訓練的基石,為大模型性能提升注入關鍵動力,是模型不可或缺的“養料。大模型則憑借

東軟集團入選國家數據局數據標注優秀案例
近日,東軟飛標醫學影像標注平臺在國家數據局發布數據標注優秀案例集名單中排名第一(案例名稱“多模態醫學影像智能數據
標貝科技“4D-BEV上億點云標注系統”入選國家數據局首批數據標注優秀案例
4月29日,作為第八屆數字中國建設峰會的重要組成部分,由國家數據局主辦的高質量數據集和數據標注主題交流活動在福州市數字中國會展中心舉行。會議交流活動聚焦“推動高質量

數據標注服務—奠定大模型訓練的數據基石
數據標注是大模型訓練過程中不可或缺的基礎環節,其質量直接影響著模型的性能表現。在大模型訓練中,數據標注承擔著將原始數據轉化為機器可理解、可學
AI自動圖像標注工具SpeedDP將是數據標注行業發展的重要引擎
AI大浪潮下,許多企業都在不斷借助AI來提升自己的行業競爭力,數據標注企業也不例外,傳統人工標注效率不足的弊端困擾了多年,如今新的“引擎”就在眼前,他們當然不會放過這個機會。針對這樣的需求,慧視光電

標貝數據標注在智能駕駛訓練中的落地案例
標貝科技深耕AI數據服務多年,在無人駕駛、自動駕駛等智能駕駛領域擁有豐富的合作案例。多次采用點云標注以及3D&2D融合等標注方式為智能駕駛領域客戶提供環境感知、決策策劃、車道線標注、障

工具型AI標注平臺SpeedDP工作流程是怎樣的?
SpeedDP作為一個工具型AI平臺,它能提供從數據標注、模型訓練、測試驗證到RockChip嵌入式硬件平臺模型部署的可視化AI開發功能。平臺所需算法并不是固定的,使用者可以根據自身實際應用場景進行

ChatGPT背后的AI背景、技術門道和商業應用
作者:京東科技 李俊兵 各位看官好,我是球神(江湖代號)。 自去年11月30日ChatGPT問世以來,迅速爆火出圈。 起初我依然以為這是和當年Transformer, Bert一樣的“熱點”模型

基于FPA的軟件工作量綜合評估研究與實踐
在軟件工程監理項目中如何對軟件開發系統進行工作量評估,如何在實施過程中對承建單位已完成的工作量進行審核是實施信息化項目的難題。本文在分析專家經驗評估法、FPA功能點分析法等方法的基礎上,給出了一種
發表于 10-15 10:45
?0次下載
使用espbox lite進行chatgpt_demo的燒錄報錯是什么原因?
我使用espbox lite進行chatgpt_demo的燒錄
我的idf是v5.1release版本的,espbox是master版本的
在編譯時似乎沒有什么問題
在燒錄時報錯
請問這是什么原因
發表于 06-11 08:45
評論