任何一家想要在醫(yī)療領(lǐng)域掘金的人工智能企業(yè),必須要有身為拓荒者心理準(zhǔn)備。在這個(gè)行業(yè),當(dāng)然有希望收獲滿滿,但也得先干許多苦活。
“有許多數(shù)據(jù)科學(xué)家、機(jī)器學(xué)習(xí)方面的專業(yè)人員,在進(jìn)行機(jī)器學(xué)習(xí)模型開發(fā)的時(shí)候,花了一半的時(shí)間來做數(shù)據(jù)準(zhǔn)備的工作”,亞馬遜AWS副總裁Swami Sivasubramanian接受第一財(cái)經(jīng)記者采訪時(shí)說,這些苦活、累活需要借助專門的平臺型工具幫忙完成,比如給數(shù)據(jù)打注釋、給數(shù)據(jù)做清洗等工作。
機(jī)器學(xué)習(xí)是人工智能的核心組成部分,而數(shù)據(jù)常被認(rèn)為是人工智能的“燃料”,它是這項(xiàng)技術(shù)用于構(gòu)建模型和改進(jìn)算法的根基。
數(shù)據(jù)準(zhǔn)備的工作通常包括數(shù)據(jù)清洗、數(shù)據(jù)格式統(tǒng)一化、數(shù)據(jù)合并等方面。非標(biāo)準(zhǔn)化的數(shù)據(jù),意味著在數(shù)據(jù)準(zhǔn)備階段就要耗費(fèi)大量的時(shí)間,延緩了人工智能技術(shù)部署速度和使用效率。
Swami所說的現(xiàn)象在人工智能落地的各個(gè)場景普遍存在,而非某個(gè)行業(yè)的個(gè)例。他的這一觀點(diǎn)也得到了國內(nèi)人工智能企業(yè)界的響應(yīng)。
“他說的還是輕了,我覺得百分之七十或百分之八十的時(shí)間用于了(數(shù)據(jù)準(zhǔn)備)這個(gè)事情。人工智能的技術(shù)已經(jīng)可用,但大部分時(shí)間耗費(fèi)在了數(shù)據(jù)上了”,第四范式的副總裁涂威威接受第一財(cái)經(jīng)記者專訪說,盡管這一問題普遍存在,但在一些特定行業(yè)里問題尤其突出,醫(yī)療領(lǐng)域就是如此。
從2018年開始,上海三甲醫(yī)院瑞金醫(yī)院與第四范式開始戰(zhàn)略合作,使用人工智能技術(shù)篩查糖尿病,以期實(shí)現(xiàn)病人的盡早發(fā)現(xiàn)、盡早治療。瑞金醫(yī)院主導(dǎo)這一合作的是中國工程院院士、瑞金醫(yī)院副院長寧光院士。
“寧光院士還是非常有遠(yuǎn)見的,他十年前就開始做醫(yī)院數(shù)據(jù)的標(biāo)準(zhǔn)化。但無奈在之前那個(gè)階段,信息化水平確實(shí)一般,我們合作項(xiàng)目里涉及到幾十萬病人的數(shù)據(jù),相對(其他醫(yī)院)來說已經(jīng)是非常好的數(shù)據(jù),但我們依然花了很多的精力來做數(shù)據(jù)的處理”
這些醫(yī)療數(shù)據(jù)已經(jīng)實(shí)現(xiàn)無紙化,均是電子化的病例,但在這些數(shù)據(jù)基礎(chǔ)上直接部署人工智能仍然困難。舉例來說,不同醫(yī)生對于同一疾病的癥狀描述差異,都可能意味著需要花時(shí)間重新甄別和篩選。
更深層次的原因在于,人工智能出現(xiàn)之前,既往醫(yī)療數(shù)據(jù)對于醫(yī)生和醫(yī)院來說價(jià)值并不大。
“原來醫(yī)院搞的信息化質(zhì)量堪憂,因?yàn)樾畔⒋嫦聛韺︶t(yī)院沒什么作用。醫(yī)生坐診、看病就夠了,這些醫(yī)療數(shù)據(jù)對他們來說沒有特別重要的意義”,涂威威表示。
“金融行業(yè)就不必花這么多時(shí)間(用于數(shù)據(jù)清理),因?yàn)榻鹑陬I(lǐng)域的數(shù)據(jù)質(zhì)地非常好“,第四范式的技術(shù)布署在不同行業(yè),涂威威比較下來發(fā)現(xiàn),”相比金融或互聯(lián)網(wǎng)行業(yè),醫(yī)療信息化還處于刀耕火種階段。”
醫(yī)療信息化需要在與數(shù)據(jù)使用方的合作磨合中逐步改進(jìn)。目前瑞金醫(yī)院的數(shù)據(jù)質(zhì)量有了極大的提高。涂威威 認(rèn)為,“慢慢的,數(shù)據(jù)的問題會(huì)越來越少。”
人工智能在數(shù)據(jù)可用性方面遭遇的問題,中外并無差異。
“數(shù)據(jù)準(zhǔn)備其實(shí)是要進(jìn)行機(jī)器學(xué)習(xí)模型開發(fā)的必備的階段”,Swami對第一財(cái)經(jīng)記者表示,不管哪個(gè)市場,數(shù)據(jù)底層的問題都是一樣的,都要從數(shù)據(jù)的清洗到ETL(Extract-Transform-Load,數(shù)據(jù)從來源端經(jīng)過抽取、轉(zhuǎn)換、加載至目的端的過程),然后做好了數(shù)據(jù)的準(zhǔn)備之后,才能夠開始機(jī)器學(xué)習(xí)模型的建構(gòu)。
經(jīng)過數(shù)據(jù)篩查和清洗這個(gè)“苦活”、“累活”的階段,人工智能就開始發(fā)揮比較大的作用了。據(jù)涂威威介紹,在一些慢病的篩查階段,比如發(fā)現(xiàn)早期糖尿病,人工智能的準(zhǔn)確率已經(jīng)不亞于經(jīng)驗(yàn)老道的醫(yī)生,而人工智能無疑效率更高。
除了在醫(yī)療領(lǐng)域落地,人工智能在藥物研發(fā)方面也有了進(jìn)步。在這次疫情期間,機(jī)構(gòu)開始使用機(jī)器學(xué)習(xí)來進(jìn)行新冠病毒治療方案的研發(fā)。
總部在深圳的晶泰科技,同時(shí)在北京、波士頓設(shè)有研發(fā)實(shí)驗(yàn)室。晶泰科技搭建了云端智能藥物研發(fā)平臺,在這個(gè)平臺上,晶泰科技使用亞馬遜的AWS GPU搭建機(jī)器學(xué)習(xí)框架,實(shí)現(xiàn)大規(guī)模的模型訓(xùn)練及參數(shù)優(yōu)化。
在新冠疫情爆發(fā)后,晶泰科技對近3000個(gè)已通過美國藥監(jiān)局(FDA)審核的上市藥物、以及超過1萬種中藥成分分子,進(jìn)行了老藥新用的掃描,找到了183個(gè)可能對新冠病毒有潛在治療效果的藥物。作為合作方,Swami介紹稱:在這之后,晶泰科技對藥物的活性進(jìn)行了排序,然后通過更加高精度的計(jì)算方法,最終鎖定了38個(gè)藥物。
“在全球,人們正在使用人工智能應(yīng)對人類所面臨的一些重大的挑戰(zhàn)。”Swami評價(jià)說。
亞馬遜內(nèi)部有一種廣泛的認(rèn)知,即人工智能還處于“Day One(第一天)”的階段。“打個(gè)比方,就是我們剛醒過來,需要喝杯咖啡的階段。即使在這么早期的階段,機(jī)器學(xué)習(xí)領(lǐng)域就已經(jīng)出現(xiàn)了非常多的創(chuàng)新了。
-
數(shù)據(jù)
+關(guān)注
關(guān)注
8文章
7256瀏覽量
91841 -
醫(yī)療
+關(guān)注
關(guān)注
8文章
1906瀏覽量
59920 -
人工智能
+關(guān)注
關(guān)注
1806文章
49012瀏覽量
249386 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8503瀏覽量
134596
發(fā)布評論請先 登錄
開售RK3576 高性能人工智能主板
Cognizant將與NVIDIA合作部署神經(jīng)人工智能平臺,加速企業(yè)人工智能應(yīng)用

評論