隨著人工智能技術與產業不斷融合,人工智能技術助力傳統產業實現新的發展和升級,助力工業經濟向數字經濟快速轉型。目前,人工智能技術在醫療、金融、交通、零售、工業制造、教育、安防等領域均產生良好的發展前景。
雖然人工智能技術的行業應用越來越廣泛,仿佛真的站在風口準備擁抱下一場革命,但正如專家們所言,對于人工智能的發展,應該保持謹慎的樂觀態度。眾所周知,沃森是當下諸多人工智能技術和應用的典型代表,其重點領域是醫療(主攻癌癥的預測與治療)。然而,在經歷了六年時間、耗資數十億美元之后,Watson的診斷結果卻令人沮喪。人工智能系統需要基于數據調整參數,以達到最佳擬合效果,由于數據的復雜性和相對不可用性,人工智能的效用往往存在不確定性。
同樣對IBM沃森而言,當Watson獲得足夠多的“條理清楚”的數據時,能通過不斷學習給出可能有用的答案。但在實際操作中,一方面Watson使用的訓練數據并不豐富,例如,訓練肺癌治療方案的數據僅有635例,其它疾病更是少得可憐。另一方面,由于患者就醫記錄沒有全部聯網,醫生經驗錄入成為沃森分析最核心的來源,這意味著當它掃描大量文件時,必然要識別復雜的信息并從中抽取關鍵內容。例如,患者的病歷可能包含醫生的大量注釋,這些注釋又是由簡寫和短語構成的,機器想完全理解它們并非易事。總結IBM沃森失敗的原因,其算法算力毋庸置疑,而在數據處理上,除了收集的樣本數據量不足,最大的問題便是在數據質量不高,幾十萬份病例下來,能夠用的可能才幾萬份病例。這一切導致了沃森不能提供足夠的敏感性、特異性和精準性,而這都是臨床決策所必需的。
當前人工智能還面臨諸多挑戰,例如數據孤島問題、隱私保護問題、安全問題等瓶頸。一項2018年的研究顯示,人工智能的采納率急劇增加,從2017年的38%增至2018年的61%,醫療保健業、制造業和金融服務業等各個行業都是如此。但根據國際數據公司(IDC)發布的一份報告指出,評估了4個行業(包括醫療健康行業)的“數據質量”,范圍為1(嚴重)到5(優化)。IDC將醫療健康行業的數據質量評為2.4。報告顯示,60%的醫療行業受訪者缺乏數據處理能力。
構建高質量數據集,推動人工智能快速發展
當前,不管是人工智能技術的研發以及應用領域的發展,“數據”都是一個不可或缺、位于重中之重的因素。機器學習等AI技術的基礎是應用軟件分析系統對數據集進行分析、挖掘。而數據集的大小至關重要,因為機器學習需要特定、大量的數據。只有數據上傳足夠高效,才能夠在相關工作中體現出及時,而準確的數據是人工智能技術研發、訓練的關鍵,以及其能夠在生活中起到多大作用的一個考量因素。乍一看,醫療健康行業應該具有優勢:該行業擁有大量數據。到2025年,醫療健康領域的數據數量將超過金融、媒體和制造業等領域,其年復合增長率達到36%。這在很大程度上是由于醫療健康領域新興技術的不斷涌現,例如醫學成像、康復機器人以及不斷成熟的大數據分析工具。但不幸的是,數量只是數據的一個方面:質量是另一個關鍵。醫療領域的數據往往數量足夠,但質量堪憂。
GetApp的一項研究表示,他們調查了五個行業(包括醫療健康行業)的近500名小企業領導者,當詢問受訪者數據分析過程的哪個方面讓他們感到信心最低時,25%的醫療行業受訪者表示,他們對收集“相關數據”——可以提供決策的高質量數據的能力最不自信,在所有五個領域(包括醫療行業)數據質量是他們關注的主要問題。加拿大的一家保險公司想要根據保險公司的工作地點來衡量保險公司的風險時,其分析產生了垃圾結果,究其原因,是在對距離數據的標注時,分別以英里和公里為標記,使其結果出現了偏差。而在Dun&Bradstreet的一項調查中,很多組織表示,缺乏正確的數據是進一步實施人工智能的最大障礙之一。
大數據是人工智能技術研發、訓練的關鍵,是人工智能長期發展的重要保障。只有當人工智能系統能夠獲取更為準確、及時、一致的高質量數據,才能提供更有效、有用、精準性高的智能化服務。根據埃森哲在2018年4月的一份調研發現,中國制造企業在運用人工智能技術時面臨一系列挑戰。其中,52%的受訪中國企業將數據質量列為突出挑戰,數據安全與網絡安全緊隨其后(47%)。在2017年4月的一次研討會上,圍繞人工智能話題,某業界專家提出:“高質量的數據是人工智能的前提和基礎”。當前,不管是人工智能技術的研發,還是人工智能應用領域的發展,“數據質量”都是一個不可或缺、位于重中之重的要素。
用戶隱私安全問題成制約人工智能發展因素
大數據,被視為人工智能發展的基石。在過去很多年里,人們并沒有意識到大數據使用中的隱私風險,企業對用戶數據的收集使用達到了無節制的程度,結果是“數據丑聞”在近兩年集中爆發。比如今年剛被曝光的IBM,為了進行人臉識別訓練,未經當事人許可,便從網絡圖庫上獲得了近100萬張照片。亞馬遜的智能音箱Alex,也屢次因隱私問題引發美國用戶的質疑。雖然企業總會辯稱匿名化處理后的數據無法對應到具體的用戶,人們還是無法完全放下擔憂。根據加州大學伯克利分校的一項新研究顯示,人工智能的進步為人們健康數據的隱私性帶來了新威脅。業內一項人工智能相關調查報告也顯示,8成受訪者擔心人工智能會威脅自己的隱私,3成受訪者已經感受到了人工智能給自己工作帶來的威脅。
作為新一輪科技革命和產業變革的重要驅動力量,人工智能正在深刻影響社會生活、改變發展格局。同時,人工智能如同一把“雙刃劍”,如果應用不當,就可能帶來隱私泄露的倫理風險。如何在人工智能應用中兼顧隱私保護,確保安全、可靠、可控,是一項亟須關注的倫理課題。
2019年9月5日,由北京大學、國家電網全球能源互聯網研究院與華矩科技三家產學研代表聯合發起的第三屆大數據數據質量管理國際峰會將在北京舉辦,峰會以“數以質造質造未來”為主題展開深入探討與交流,薈萃技術發展與產業升級,匯聚國內外數據質量學術大拿、技術大拿、行業應用及技術創新者,不僅從更新更全的角度剖析數據質量的前沿發展,而且更貼合各行業各領域深度的業務場景,提供全新的視角與思考。
針對人工智能領域,DQMIS2019特設數據質量與人工智能的結合主題板塊,深度挖掘機器視覺、智能機器人、大數據與數據服務、AI+產業等前沿技術話題,邀請了國內外技術大咖及行業領袖現身說法,分享人工智能發展過程的數據質量難點與實踐,給人工智能應用與發展帶來更多啟發與探討。
-
醫療
+關注
關注
8文章
1903瀏覽量
59898 -
人工智能
+關注
關注
1806文章
48996瀏覽量
249205 -
數據集
+關注
關注
4文章
1224瀏覽量
25434
發布評論請先 登錄
東風汽車積極推動汽車產業高質量發展
淺析:數字經濟時代,高質量數據集對AI產業帶來哪些新的變化
標貝科技“4D-BEV上億點云標注系統”入選國家數據局首批數據標注優秀案例

東風汽車推出端到端自動駕駛開源數據集
東風科技攜手合作伙伴推動汽車產業高質量發展
喜報丨阿丘科技榮登蘇州市人工智能大模型與高質量數據集雙項榜單

廣汽集團召開高質量發展大會
標貝科技:AI基礎數據服務,人工智能行業發展的底層支撐

嵌入式和人工智能究竟是什么關系?
《AI for Science:人工智能驅動科學創新》第6章人AI與能源科學讀后感
AI for Science:人工智能驅動科學創新》第4章-AI與生命科學讀后感
《AI for Science:人工智能驅動科學創新》第一章人工智能驅動的科學創新學習心得
中國算力大會召開,業界首個算力高質量評估體系發布

評論