在智能駕駛中,汽車需要通過在感知、規(guī)劃、決策、控制方面的努力,讓機器具備“智力”。人們通常愿意把這一個過程,稱之為人工智能。
而事實上,所謂的智能只是一個結果,想要讓機械具備智能,過程當中需要無數(shù)人力勞動的堆砌。
數(shù)據(jù)標注就是這樣一個工作,它存在的意義便是讓機器理解、認識世界。通常的數(shù)據(jù)標注,一般有語音、文本、圖像等類型,工作人員需要更具行業(yè)的標準或者客戶要求,對相應的數(shù)據(jù)進行分類、畫框、注釋、標記等等,然后將結果數(shù)據(jù)反饋給客戶。客戶依此來訓練機器對上述特征的認識,C端用戶所體驗到的智能語音交互、視覺圖像識別等都因此而來。
數(shù)據(jù)標注是一個重人工的工作,需要大量人員做簡單重復的工作,成本高昂,業(yè)內也在尋求一種自動化的方式。
業(yè)內人士告訴《高工智能汽車》,自動化數(shù)據(jù)標注在目前的行業(yè)內還屬于一個”遙遠的夢”,在可預見的時期內,數(shù)據(jù)標注還將以人為主。
數(shù)據(jù)標注分類
數(shù)據(jù)標注的對象通常有圖像、語音、文本、視頻、雷達等。圖像類主要針對視覺識別類公司,所要標注的圖像內容包括人像、建筑物、植物、道路、交通標志、車輛等,每項內容下面,又會根據(jù)不同的特征進行不同標簽的標注。
以應用最廣的人像為例,標注公司可能需要對目標的性別、年齡、膚色、著裝、表情、發(fā)型、姿態(tài)做出標志,方式會是畫框、打標簽等。
語音標注也是常見的一種,公司會將音頻的文字對照寫出,同時也可能會將語句中的主謂賓標出,方便機器學習。
隨著激光雷達在自動駕駛中頻繁的應用,雷達對障礙物掃描識別的需求也愈加頻繁,而如何讓激光雷達掃描到的物體通過更直觀的形式顯示給用戶,也成了要完成的工作。
數(shù)據(jù)標注公司會將激光雷達掃描出的物體大概,進行更精細的物體輪廓勾勒,同時也會對相應障礙物進行標識,包括但不限于名稱、類別,以及通過不同顏色進行展示。通過這種深度處理后,激光雷達也就間接具備了識別障礙物的能力。
無論圖像、語音還是雷達數(shù)據(jù)的標注,通常數(shù)據(jù)標注公司會有一套自己的標準,對數(shù)據(jù)進行分類,而目標客戶也會有自己的標注。
業(yè)內人士表示,一般而言,客戶會有自己的需求,公司依規(guī)而行。目前在國內,阿里巴巴、騰訊、百度等大型互聯(lián)網公司,擁有海量的數(shù)據(jù)標注需求,單個訂單量都是以億元為單位。如此大的訂單,基本都是分包給不同的數(shù)據(jù)標注公司進行處理,國內外還沒有一家公司能夠處理這樣大的訂單。
另外還有自動駕駛公司,以及視覺圖像處理的公司,也有著數(shù)據(jù)標注的強烈的需求,他們需要用標注后的數(shù)據(jù)來訓練人工智能,而人工智能的日趨成熟,是永無止境的。
勞動密集型產業(yè)
面對數(shù)據(jù)標注的巨大需求,整個行業(yè)的技術水平如何?在回答這個問題之前,首先給大家羅列一組數(shù)據(jù)。
ImageNet 是一個計算機視覺系統(tǒng)識別項目名稱,是由美國斯坦福的計算機科學家李飛飛教授領銜的團隊模擬人類的識別系統(tǒng)建立的,它是目前世界上圖像識別最大的數(shù)據(jù)庫——1,500 萬張標注圖片的數(shù)據(jù)集,這是來自 167 個國家的 48,940 名工作者,花費了 2 年時間,清理、分類、標記了近十億張通過互聯(lián)網搜集到的圖片,才得到的。
由于數(shù)據(jù)龐大又開源,ImageNet 很快成為成為研究圖像識別的首選。但盡管如此, ImageNet 也有自己的弱點:標注框太大、標注方式少和不時出現(xiàn)的錯誤,使它難以被用來訓練實際應用的算法模型。
從以上可以看出,即使是業(yè)內最強大的圖像識別庫,數(shù)據(jù)標注都是通過人工完成的。因此,其它宣傳數(shù)據(jù)標注自動化的,可信度較低。
業(yè)內人士透露,數(shù)據(jù)標注是一個簡單又困難的事情。簡單之處在于,確定了篩選規(guī)則以后,操作人員只需依規(guī)操作即可,沒有執(zhí)行上的難度,而困難之處在于,數(shù)據(jù)標注本質上是要獲得更準確,更精細化的數(shù)據(jù)結果,高質量的數(shù)據(jù)是業(yè)內急需的。
但數(shù)據(jù)標注本身是一項枯燥的工作,工作人員需要對大量數(shù)據(jù)不斷進行重復勞動,數(shù)據(jù)的一致性很難保證。
而這些數(shù)據(jù)標注的工作,本身是為了提升機器學習的能力,因此這部分工作只能由人來完成,人與機器之間的鴻溝,正是機器要跨越的。
數(shù)據(jù)標注公司目前的做法,是雇傭部分專業(yè)的標注人員,然后再外聘一些兼職的人員,共同完成訂單。由于人工成本高昂,大部分數(shù)據(jù)標注公司,都將公司設在了三線以下的城市。
專業(yè)人員跟兼職人員的工作能力,還是存在一定的差距的。為了保證數(shù)據(jù)標注的質量,通常數(shù)據(jù)標注公司還會設立審核團隊,對標注后的數(shù)據(jù)進行把關。
數(shù)據(jù)的采集、標注都是專業(yè)性很強的工作,必須有針對性的對每個素材進行專業(yè)指導。培訓的過程包括了解目標 - 學習規(guī)則 - 線上培訓&錄像學習 - 實際場景練習 - 達標考試 - 進行工作 - 糾錯講解&改錯(如果錯誤嚴重、產出不達標會打回規(guī)則學習階段)。審核方面公司會采用多重交叉審核審核機制進行標注與審核,嚴格把控標注的每一道流程 。
業(yè)內人士表示,進行數(shù)據(jù)標注的人力成本還是較高,以語音數(shù)據(jù)為例,客戶通常會提供完整有效的數(shù)據(jù)音頻,然后以完成的有效時間段計量價格。
音頻通常會包含方言,雜音等,標注人員有時需要反復聽音頻,才能完成音頻轉文字的工作。一小時的音頻,常常需要一天才能完成,業(yè)內給出的價格通常在300元左右。
這個市場完全是自由市場,甲乙雙方一方面要兼顧成本、質量等因素,另一方面也要考慮到人力成本,由于技術含量低,上升空間小,做數(shù)據(jù)標注工作的大部分都是短期工,從業(yè)人員積極性低,面臨較大的人才流失問題。資本市場的博弈,最終要找到一個平衡點,讓工人愿意留下來繼續(xù)工作。
眾包下的半自動化
資本逐利,為了降成本,提效率,無論數(shù)據(jù)標注公司還是客戶,都在想辦法提升數(shù)據(jù)標注的效率。
人們談到更多的便是數(shù)據(jù)標注自動化,但業(yè)內人士表示,數(shù)據(jù)標注自動化是一個偽命題,除卻技術可行性,完成自動化所需要的人才,在業(yè)內都屬鳳毛麟角。
本質上而言,大公司是最有實力做這部分工作的,但現(xiàn)實是大公司的數(shù)據(jù)標注業(yè)務,基本都外包給了小工司來做。而小公司,則還沉浸在人海戰(zhàn)術中。
數(shù)據(jù)標注公司要提高標注的效率,以及降低成本,目前所努力的方向基本是眾包、半自動化。所謂的眾包,類似于國外高精地圖的采集,即公司將訂單發(fā)放到網上,讓擁有閑暇時間的網友來合力完成數(shù)據(jù)標注的工作,中間可能會涉及到給予一些獎勵,但相比現(xiàn)在的線下重勞力模式,已經減輕了不少成本。
但眾包的形式,對數(shù)據(jù)標注的工作流程,有了更高的要求。網絡用戶完成數(shù)據(jù)標注,一定要簡單,快速,容易上手,由此才能普及。目前的數(shù)據(jù)標注過程,需要人工畫框,打標簽,還需要后續(xù)的人工審核,整個流程較為復雜。
業(yè)內人士表示,現(xiàn)在能提高效率的工作,便是開發(fā)一套網上系統(tǒng),將標注工作簡單化、標準化,為標注人員盡量減少一些重復簡單的工作。
開發(fā)這樣一套系統(tǒng),需要專業(yè)的研發(fā)人員,而大部分數(shù)據(jù)標注公司,鮮少擁有余力來進行這一部分純粹投入、研發(fā)。因此,數(shù)據(jù)標注公司未來的目標是能夠實現(xiàn)半自動化的數(shù)據(jù)標注,而這背后,還仍然要依靠眾包。
所謂的自動化標注,本身是一個偽命題,如果數(shù)據(jù)都能通過自動化標注了,那本質上已經不需要標注了,因為人工智能已經有了如人一般的識別能力。而這一天什么時候會到來?眾所期待~
-
人工智能
+關注
關注
1806文章
49020瀏覽量
249483 -
智能駕駛
+關注
關注
4文章
2815瀏覽量
49959
原文標題:自動駕駛下的AI識別,數(shù)據(jù)標注賦能背后的自動化偽命題 | GGAI視角
文章出處:【微信號:ilove-ev,微信公眾號:高工智能汽車】歡迎添加關注!文章轉載請注明出處。
發(fā)布評論請先 登錄
什么是自動駕駛數(shù)據(jù)標注?如何好做數(shù)據(jù)標注?

端到端數(shù)據(jù)標注方案在自動駕駛領域的應用優(yōu)勢
淺析4D-bev標注技術在自動駕駛領域的重要性
AI將如何改變自動駕駛?
自動化標注技術推動AI數(shù)據(jù)訓練革新
標貝自動化數(shù)據(jù)標注平臺推動AI數(shù)據(jù)訓練革新

從自動駕駛行業(yè),分析數(shù)據(jù)標注在人工智能的重要性
以自動駕駛角度解析數(shù)據(jù)標注對于人工智能的重要性

淺析基于自動駕駛的4D-bev標注技術

標貝科技:自動駕駛中的數(shù)據(jù)標注類別分享

標貝科技:自動駕駛中的數(shù)據(jù)標注類別分享

自動駕駛汽車安全嗎?

評論