通訊科技的進(jìn)步與普及,帶動(dòng)智能手機(jī)的發(fā)展,使得人們可隨時(shí)隨地將圖片或視頻上傳到影音網(wǎng)站,而高解析度顯示技術(shù)的發(fā)展,使得影音片段所須儲(chǔ)存的數(shù)據(jù)量增加,加上近距離通訊將移動(dòng)物件的數(shù)據(jù)傳輸便利化等,在在讓全球數(shù)位數(shù)據(jù)量呈現(xiàn)快速成長(zhǎng)。
另一方面,云計(jì)算(Cloud Computing)技術(shù)將分散于各地?cái)?shù)據(jù)中心的資源加以動(dòng)態(tài)組合形成服務(wù),提供給數(shù)百億的資通訊設(shè)備如手機(jī)、聯(lián)網(wǎng)電視和電腦等,更讓散布于全球各地的數(shù)據(jù)聚合而成數(shù)位宇宙(Digital Universe)。
數(shù)據(jù)量大爆炸 Big Data商機(jī)起飛
市場(chǎng)調(diào)查機(jī)構(gòu)IDC指出,數(shù)位宇宙數(shù)據(jù)量自2005-2020年將成長(zhǎng)三百倍,由2005年的130艾位元組(Exabytes,相當(dāng)于109Gigabytes)激增至2020年的40,000艾位元組,相當(dāng)于每年數(shù)據(jù)量成長(zhǎng)兩倍。
數(shù)位宇宙如此多元與龐大的數(shù)據(jù)量,如何連結(jié)與產(chǎn)生有效益的資訊,成為近年來資通訊技術(shù)與產(chǎn)業(yè)發(fā)展的主要議題;大數(shù)據(jù)(Big Data)技術(shù)遂于2012年繼云計(jì)算技術(shù)后,成為資訊產(chǎn)業(yè)界最熱門的話題。
IDC定義大數(shù)據(jù)技術(shù)為運(yùn)用高速擷取、發(fā)現(xiàn)或分析技巧于各式各樣型態(tài)的龐大數(shù)據(jù)中,以經(jīng)濟(jì)的方式萃取出價(jià)值的新一代資訊技術(shù)與架構(gòu)。IDC分析師認(rèn)為大數(shù)據(jù)應(yīng)具有三個(gè)主要特點(diǎn),分別為數(shù)據(jù)本身、分析推論,以及分析結(jié)果的表達(dá)方式,之后才能由它們組合延展為產(chǎn)品和服務(wù)。
市場(chǎng)研究機(jī)構(gòu)Transparency Market Research研究報(bào)告預(yù)測(cè),未來5年內(nèi)全球大數(shù)據(jù)技術(shù)市場(chǎng)規(guī)模,將由2012年的63億美元成長(zhǎng)至2018年的483億美元,年復(fù)合成長(zhǎng)率為 40.5%;該報(bào)告亦指出2012年全球60%以上的大數(shù)據(jù)市場(chǎng)由惠普(HP)、Teradata、Opera Solutions、Mu Sigma及Splunk等五家公司主導(dǎo)。
大數(shù)據(jù)的發(fā)展使得傳統(tǒng)占有商業(yè)智能(Business Intelligence)市場(chǎng)的大型廠商如SAP Business Objects、IBM Cognos、Oracle OBIEE和MicroStrategy,在2012年的市占率被壓縮,一般認(rèn)為商業(yè)智能的需求于未來將更多角化,更多新創(chuàng)公司會(huì)貢獻(xiàn)創(chuàng)新的作法。
大數(shù)據(jù)興起 全球IT資本支出走揚(yáng)
Gartner市場(chǎng)研究機(jī)構(gòu)分析,大數(shù)據(jù)的特性為數(shù)據(jù)集的產(chǎn)出量、產(chǎn)出樣式與復(fù)雜度及產(chǎn)出速度,遠(yuǎn)大于超過一個(gè)機(jī)構(gòu)以往所面對(duì)及處理的數(shù)據(jù),亦簡(jiǎn)稱為3Vs特性(Volume、Variety、Velocity)。
Gartner指出,目前全球于大數(shù)據(jù)的資本支出,主要需求來自于將傳統(tǒng)的IT解決方案轉(zhuǎn)為需要大數(shù)據(jù)技術(shù)的IT方案,這些需求來自于機(jī)器產(chǎn)生的數(shù)據(jù)、社交數(shù)據(jù)、過于多樣式的數(shù)據(jù),以及無法預(yù)測(cè)產(chǎn)生速率的數(shù)據(jù)。大數(shù)據(jù)技術(shù)未來將為全球IT資本支出的新驅(qū)動(dòng)力,并逐漸改變傳統(tǒng)的資訊管理實(shí)務(wù)與技術(shù)。
大數(shù)據(jù)呈現(xiàn)的數(shù)據(jù)格式,目前大多以影音、文字和數(shù)值等為主,樣式可為結(jié)構(gòu)化或非結(jié)構(gòu)化,輸入模式可為串流或批次。除企業(yè)擁有的商務(wù)與公開數(shù)據(jù)外,因?yàn)槠髽I(yè)可運(yùn)用收集和分析消費(fèi)者資訊的創(chuàng)新資源增多,使得大數(shù)據(jù)技術(shù)的應(yīng)用將更加廣泛,更多連續(xù)性數(shù)據(jù)的來源包含如量測(cè)設(shè)備所產(chǎn)生的數(shù)據(jù)、射頻辨識(shí)系統(tǒng) (RFID)傳感事件、社群網(wǎng)路的訊息、氣象與天文數(shù)據(jù)、監(jiān)控與傳感數(shù)據(jù)、移動(dòng)設(shè)備所產(chǎn)生與位置相關(guān)的數(shù)據(jù)流等。大數(shù)據(jù)技術(shù)因全球積極推動(dòng)的物聯(lián)網(wǎng) (IoT)、智能電網(wǎng)(Smart Grid)和智能城市(Smart City)等重點(diǎn)應(yīng)用領(lǐng)域,在2012-2018年間,大多數(shù)的數(shù)據(jù)不再是由人產(chǎn)生,而是由具備資通訊功能的物件如交通工具、生產(chǎn)設(shè)備和家電等之間的互動(dòng)產(chǎn)生。
IDC統(tǒng)計(jì)顯示,目前全球所有的數(shù)據(jù)約只有千分之五曾被分析過。大數(shù)據(jù)技術(shù)未來幾年中仍將在商業(yè)智能應(yīng)用為發(fā)展主流,雖然目前它依然是新興且尚未發(fā)展成熟的概念。Gartner市場(chǎng)調(diào)查機(jī)構(gòu)預(yù)測(cè),至2015年大數(shù)據(jù)將創(chuàng)造全球四百四十萬人的就業(yè)機(jī)會(huì),用以解決目前大數(shù)據(jù)數(shù)據(jù)分析師與軟體工具的龐大缺口問題。
2012年為數(shù)不少的美國(guó)大型公司轉(zhuǎn)為使用大數(shù)據(jù)軟體平臺(tái)Hadoop與叢集計(jì)算架構(gòu)來執(zhí)行企業(yè)內(nèi)部大量數(shù)據(jù)應(yīng)用,許多美國(guó)資服業(yè)者亦將支援Hadoop功能整合至他們的分析與儲(chǔ)存軟體解決方案。
大數(shù)據(jù)分析平臺(tái)廠商Alteryx總經(jīng)理George Mathew認(rèn)為,2013年由于使用云端平臺(tái)的服務(wù)成長(zhǎng),當(dāng)越來越多組織開始使用平價(jià)合理的云端服務(wù)商業(yè)模式,企業(yè)將會(huì)分析應(yīng)用轉(zhuǎn)換至云端服務(wù)平臺(tái)來執(zhí)行,以云端平臺(tái)來提供使用者存取、分享與收集分析資訊的軟體工具將越來越多。
除商務(wù)智能外,2012年大數(shù)據(jù)技術(shù)也被應(yīng)用于運(yùn)動(dòng)、健康照護(hù)等領(lǐng)域。由于擁有過去所累積的各類運(yùn)動(dòng)數(shù)據(jù)紀(jì)錄,運(yùn)動(dòng)愛好者可藉由分析找出他們最喜歡的球員和運(yùn)動(dòng)的資訊。體育精算師John Dewan就運(yùn)用大數(shù)據(jù)結(jié)合奧運(yùn)模擬軟體,預(yù)測(cè)美國(guó)在2012年的夏季奧運(yùn)會(huì)將得到一百零八面獎(jiǎng)牌,而美國(guó)最后得到一百零四面。
在技術(shù)發(fā)展上,Google的MapReduce分散式平行計(jì)算架構(gòu)亦為大數(shù)據(jù)處理的重要軟體工具。雖然MapReduce結(jié)合Hadoop平臺(tái)的解決方案已完成,但Hadoop的研發(fā)社群似乎不太重視此一方案的成長(zhǎng)性。據(jù)推測(cè),Hadoop社群將研發(fā)重點(diǎn)聚焦于以Hadoop平臺(tái)的分散式特性,提供支援即時(shí)處理和其他新的功能,讓Hadoop更適合下一代數(shù)據(jù)處理應(yīng)用,而這些新功能已被其他平臺(tái)解決方案如Storm、Druid列為研發(fā)要點(diǎn)。
目前有許多新創(chuàng)公司如Continuuity、Infochimps和Precog等,以讓應(yīng)用開發(fā)者可存取到大數(shù)據(jù)的發(fā)展策略進(jìn)行技術(shù)擴(kuò)展。另一個(gè)發(fā)展方式則為選擇利基應(yīng)用,如使用者行為分析、網(wǎng)路安全、人工智能和客戶服務(wù)等使用情境做為開發(fā)標(biāo)的,進(jìn)而將使用案例轉(zhuǎn)為服務(wù)或產(chǎn)品,運(yùn)用此一模式的業(yè)者包括Google、臉書(Facebook)等自身擁有大數(shù)據(jù)的公司。
2013年大數(shù)據(jù)技術(shù)發(fā)展的熱門應(yīng)用領(lǐng)域?yàn)橐苿?dòng)商務(wù)智能、物聯(lián)網(wǎng)和機(jī)器學(xué)習(xí)等,須要垂直整合的應(yīng)用領(lǐng)域則為能源、公用事業(yè)、健康照護(hù)和人力資源等。在技術(shù)面,則以取得與合併數(shù)據(jù)的技術(shù)、降低初始分析因數(shù)據(jù)不足的失敗率(Start-Up Failure)、增加預(yù)測(cè)精確度與新平臺(tái)的研發(fā)為主要發(fā)展趨勢(shì)。下面將以幾個(gè)案例,來說明相關(guān)技術(shù)如何運(yùn)用于各應(yīng)用領(lǐng)域。
善用智能分析工具 用戶移動(dòng)商務(wù)經(jīng)驗(yàn)提升
由于智能移動(dòng)設(shè)備的成長(zhǎng)與滲透率提高,智能移動(dòng)設(shè)備內(nèi)建多種傳感元件,例如影像傳感器、衛(wèi)星定位、加速度計(jì)和高度計(jì),使得服務(wù)營(yíng)運(yùn)商可自智能移動(dòng)設(shè)備即時(shí)取得使用者資訊,例如定位數(shù)據(jù)、移動(dòng)方向、興趣點(diǎn)和交易數(shù)據(jù)的方式增多,移動(dòng)商務(wù)智能的獲得,將促使?fàn)I運(yùn)商投資大數(shù)據(jù)分析軟體與平臺(tái)建置。
移動(dòng)商務(wù)智能分析須融合使用者、智能移動(dòng)設(shè)備與環(huán)境等多方資訊,才能有效地由巨量的使用者資訊中萃取出商業(yè)價(jià)值,探勘使用者于移動(dòng)環(huán)境中所需服務(wù)及偏好成為價(jià)值萃取的標(biāo)的,運(yùn)用此價(jià)值資訊將協(xié)助服務(wù)營(yíng)運(yùn)商提供最適合的資訊與服務(wù)給使用者,進(jìn)而提升使用者使用移動(dòng)商務(wù)的經(jīng)驗(yàn)并增進(jìn)服務(wù)商獲利能力。
舉例而言,以位置為基礎(chǔ)的移動(dòng)商務(wù)智能分析技術(shù),可透過多種位置資訊的傳感方式來收集混合的移動(dòng)軌跡數(shù)據(jù),并增加只運(yùn)用單一位置資訊傳感方式的定位精度軌跡探勘精確度。研發(fā)自動(dòng)叢集多源定位的移動(dòng)軌跡數(shù)據(jù),來改善定位精度容錯(cuò)范圍,以提升軌跡可探勘率為此類應(yīng)用的基礎(chǔ)技巧,但于技術(shù)應(yīng)用面須進(jìn)一步考量消費(fèi)者、廣告商及平臺(tái)商各自的商業(yè)利益,延展出具有三贏功效的軌跡樣式探勘處理技術(shù),才能提升移動(dòng)服務(wù)推薦滿足率及成交效益,創(chuàng)造大數(shù)據(jù)技術(shù)的市場(chǎng)價(jià)值。
除以定址服務(wù)(LBS)為商務(wù)智能分析的主要發(fā)展趨勢(shì)外,另一個(gè)值得關(guān)注的發(fā)展為社群資訊服務(wù)。2012年美國(guó)運(yùn)用巨量連續(xù)的社群串流資訊,即時(shí)自動(dòng)發(fā)現(xiàn)所含的熱門議題資訊,用以成功阻止流感的擴(kuò)散。
2013年以社群串流資訊結(jié)合大數(shù)據(jù)分析技術(shù)的應(yīng)用持續(xù)增加,巨集大量短訊息數(shù)據(jù)的微網(wǎng)誌(Microblog)社群網(wǎng)路平臺(tái)如Twitter、 Plurk和微博等,成為許多廠商尋找大數(shù)據(jù)商機(jī)之處。透過微網(wǎng)誌,使用者可發(fā)布關(guān)于自己的日常生活瑣事,以及分享每天所遭遇到的事情,亦能即時(shí)了解朋友的近況動(dòng)態(tài)等。
此大數(shù)據(jù)分析技術(shù)的重點(diǎn)為當(dāng)微網(wǎng)誌短訊息快速、連續(xù)性產(chǎn)生時(shí),仍可即時(shí)處理串流訊息分群以進(jìn)行議題偵測(cè),包括如何自動(dòng)偵測(cè)最新出現(xiàn)的熱門關(guān)鍵字,以及解決串流文字訊息概念漂移(Concept-Drift)的問題,并即時(shí)群聚串流文字短訊以偵測(cè)未知數(shù)量議題與事件。萃取出的情報(bào)資訊將可應(yīng)用于新產(chǎn)品市場(chǎng)意見回饋、客戶關(guān)係管理(Customer Relation Management, CRM)、民意調(diào)查和災(zāi)情追蹤等領(lǐng)域,以提供市場(chǎng)行銷決策參考依據(jù)。
聯(lián)網(wǎng)電視、移動(dòng)與社群等服務(wù)結(jié)合云端計(jì)算技術(shù)的快速發(fā)展,將商務(wù)資訊匯流至服務(wù)平臺(tái),有助于虛實(shí)整合O2O(Online to Offline)電子商務(wù)服務(wù)業(yè)者的發(fā)展。O2O將實(shí)體世界的商務(wù)發(fā)展和資通網(wǎng)路結(jié)合,讓資通網(wǎng)路成為商務(wù)交易的前臺(tái)。
換言之,O2O模式主要的精神是透過資通訊技術(shù)尋找消費(fèi)者,然后將他們帶到實(shí)體商店中。圖1為運(yùn)用數(shù)種即時(shí)巨量商務(wù)數(shù)據(jù)分析技術(shù)形成O2O商務(wù)系統(tǒng)平臺(tái),分析平臺(tái)解析巨量且異質(zhì)的消費(fèi)者與店家數(shù)據(jù),將適切的服務(wù)推薦至使用者來提升商務(wù)效益。同時(shí),更貼近使用者個(gè)人化需求的服務(wù),將隨著大數(shù)據(jù)技術(shù)的發(fā)展更加完善。
圖1 巨量商務(wù)分析技術(shù)于O2O商務(wù)應(yīng)用 數(shù)據(jù)來源:工研院南分院云服中心整理
大數(shù)據(jù)收集有彈性 環(huán)境分析應(yīng)用計(jì)劃開跑
在數(shù)據(jù)收集技術(shù)與新興大數(shù)據(jù)應(yīng)用方面,IBM自2009年起,在數(shù)據(jù)較缺乏的領(lǐng)域如健康照護(hù)與環(huán)境應(yīng)用,展開數(shù)據(jù)收集與建立的投資,其中包含與 Marine Institute Ireland合作進(jìn)行對(duì)海洋中海浪、污染和海產(chǎn)生命等數(shù)據(jù)即時(shí)監(jiān)控與收集的「SmartBay Calway」先導(dǎo)計(jì)劃。
該計(jì)劃將收集到的巨量監(jiān)控?cái)?shù)據(jù)加以分析提供服務(wù),并以Web或其他智能通訊設(shè)備傳遞給使用者,將數(shù)據(jù)多元提供不同領(lǐng)域的應(yīng)用,此計(jì)劃數(shù)據(jù)收集與提供如圖2所示。
圖2 SmartBay Calway監(jiān)控?cái)?shù)據(jù)收集示意圖 數(shù)據(jù)來源:John Kennedy--Silicon Republic
自動(dòng)化數(shù)據(jù)收集及設(shè)備管理應(yīng)用的技術(shù)實(shí)施,主要由數(shù)據(jù)收集與服務(wù)傳遞的閘道器,以及內(nèi)建于傳感器的數(shù)據(jù)處理軟體元件組成。在養(yǎng)殖應(yīng)用案例上,布建于養(yǎng)殖水域的環(huán)境傳感器,將傳感到的水質(zhì)溫度值、酸鹼值及溶氧值等數(shù)據(jù)數(shù)據(jù),透過有線或無線通訊技術(shù),將資訊傳送至后端的傳感數(shù)據(jù)收集閘道器。傳感數(shù)據(jù)收集閘道器解析各項(xiàng)水質(zhì)環(huán)境資訊后,再依據(jù)場(chǎng)域環(huán)境,透過適切的通訊方式傳送環(huán)境數(shù)據(jù)至養(yǎng)殖應(yīng)用平臺(tái)儲(chǔ)存。
為多元應(yīng)用的數(shù)據(jù)存取便利與設(shè)備互通性,在系統(tǒng)實(shí)施面的設(shè)計(jì)上可採(cǎi)用OSGi開放式服務(wù)閘道器技術(shù),系統(tǒng)架構(gòu)如圖3所示,OSGi技術(shù)允許任意加入及刪除傳感器設(shè)備,如場(chǎng)域管理者欲新增/刪除監(jiān)控水質(zhì)項(xiàng)目,僅須布建/移除傳感器與實(shí)作安裝/反安裝相對(duì)應(yīng)傳感軟體元件,此技術(shù)提供易于修改與擴(kuò)展,以及降低系統(tǒng)維護(hù)成本的優(yōu)點(diǎn)。
圖3 養(yǎng)殖數(shù)據(jù)收集案例
加入大數(shù)據(jù)分析 再生能源市場(chǎng)接受度高
在新興能源應(yīng)用方面,智能電網(wǎng)與再生能源的推動(dòng),為全球現(xiàn)今積極發(fā)展的技術(shù),智能電網(wǎng)運(yùn)用整合型通訊與新控制技術(shù),讓電網(wǎng)效益與效率發(fā)揮。歐美已有許多能源服務(wù)公司(ESCO),透過能源監(jiān)控?cái)?shù)據(jù)的收集與大數(shù)據(jù)技術(shù),并結(jié)合云端服務(wù)來強(qiáng)化太陽能發(fā)電效益及公司的營(yíng)運(yùn),其中美國(guó)能源服務(wù)公司 SolarCity于2012年上市籌資,成功擴(kuò)展此類營(yíng)運(yùn)的經(jīng)濟(jì)規(guī)模。
由于一般民眾對(duì)太陽能發(fā)電系統(tǒng)相關(guān)的建置資訊與投資報(bào)酬率的了解程度不深,因此須要藉由太陽能監(jiān)控技術(shù)來強(qiáng)化相關(guān)資訊的曝光率,并建構(gòu)更普及的接受度。如 SolarCity的系統(tǒng)營(yíng)運(yùn)商更有賴于太陽能監(jiān)控管理系統(tǒng)的開發(fā),來降低營(yíng)運(yùn)成本與提高維運(yùn)效率,并能主動(dòng)提供系統(tǒng)異常塬因與性能衰煺預(yù)警,提供業(yè)界託管服務(wù)。
目前較成熟的太陽能發(fā)電與監(jiān)控系統(tǒng),可由圖4來說明。一般的太陽能監(jiān)控系統(tǒng)為使用者集中管理的方便性,并考量乙太網(wǎng)路已是目前物聯(lián)網(wǎng)最為廣泛的數(shù)據(jù)傳遞媒介,通常採(cǎi)用一組于發(fā)電轉(zhuǎn)換器(Inverter)至網(wǎng)路介面(ADSL Modem)之間的協(xié)定轉(zhuǎn)換器(Bus Adapter),將太陽能的發(fā)電狀態(tài)透過網(wǎng)際網(wǎng)路(Internet)傳遞至遠(yuǎn)端的中央控管伺服器,讓使用者可透過個(gè)人電腦或主機(jī)來觀測(cè)太陽能發(fā)電的狀態(tài)。
圖4 太陽能發(fā)電與監(jiān)控系統(tǒng)
在云端化管理平臺(tái)部分,通常使用Hadoop云端平臺(tái)軟體,將該軟體分散建置于數(shù)臺(tái)實(shí)體機(jī)器,并于Hadoop云端平臺(tái)上開發(fā)太陽能監(jiān)控管理服務(wù),結(jié)合遠(yuǎn)端監(jiān)控及云端服務(wù)達(dá)到即時(shí)且長(zhǎng)期監(jiān)控的效果。此外,透過云端技術(shù)與移動(dòng)應(yīng)用程式(App)的結(jié)合,使用者可經(jīng)由隨身設(shè)備隨時(shí)地監(jiān)控整個(gè)系統(tǒng)。
透過分析來自太陽能監(jiān)控管理系統(tǒng)的大數(shù)據(jù),將可提供許多有效資訊,這些資訊包含能源比例調(diào)整最佳化(依據(jù)發(fā)電效率、成本、其他替代能源種類/成本,做為系統(tǒng)發(fā)電成本最佳的規(guī)劃)、系統(tǒng)大小配置仿真功能(依據(jù)欲建置的場(chǎng)域大小與發(fā)電量,模擬建置發(fā)電系統(tǒng)設(shè)備的規(guī)模)、能源使用概況(模擬太陽能系統(tǒng)發(fā)電期間的使用概況,可提供投資者有效追蹤與管理發(fā)電系統(tǒng)的發(fā)電效能),以及綜合財(cái)務(wù)分析(提供投資者成本回收推估、費(fèi)率結(jié)構(gòu)比較和銷售價(jià)格預(yù)訂等項(xiàng)目)。
大數(shù)據(jù)技術(shù)已開始運(yùn)用于更多的領(lǐng)域,用以發(fā)現(xiàn)更多數(shù)據(jù)的精華價(jià)值,而它卻只是新一代數(shù)據(jù)管理技術(shù)的開端。未來,將有更多的公司將更深一層的去思考如何由他們擁有的數(shù)據(jù)資產(chǎn)中發(fā)現(xiàn)價(jià)值,或連結(jié)公開的數(shù)據(jù)來創(chuàng)造價(jià)值,而管理大數(shù)據(jù)的創(chuàng)新演算法與軟體,將成為IT業(yè)者競(jìng)爭(zhēng)的戰(zhàn)場(chǎng)。
評(píng)論