當前我們邁入了全面的數字經濟時代,一切都變得智能起來。
因智能而簡單,一切都變得容易起來。就如阿里巴巴一樣,讓天下沒有難做的生意,成就了一個橫跨商業、金融、物流、大數據、云計算等各個領域的獨特數字經濟體,令全球矚目。
“大數據好比石油,算力好比發動機,云原生企業級數據湖就好比一輛F1,有機融合了大數據與算力,助力企業用戶與互聯網用戶奔馳在遼闊的應用大地。”
來自阿里云智能存儲產品資深總監陳起鯤(Alex)的一個很有意思的比喻,讓大家對數據湖有了新的好奇。
早在十年前紐約Hadoop World大會上就誕生的數據湖概念,現在企業全面實現智慧化、數智化轉型,為什么還需要數據湖?
重新認識數據湖,從互聯網到企業級的演進
我們要重新認識數據湖,不妨簡單捋一捋數據湖的前世今生。
在2000年之前的數據庫時代,以IBM+Oracle+EMC為“鐵三角”面向大型制造業、銀行等內部系統,傳統數據庫的處理能力有限,而且價格還高昂。
隨著2000年后互聯網的蓬勃發展,由Google帶出來了影響頗深的GFS、BigTable和MapReduce,讓業界清楚了分布式存儲、調度與計算模型的樣子。阿里巴巴飛天系統也成為分布式技術體系中的一員,突破傳統數據庫的藩籬,開始實現數據庫的低成本大規模擴張。
2010年,Pentaho創始人兼CTO詹姆斯·狄克遜(James Dixon)首次提出數據湖概念,Pentaho同期發布了開源框架的Hadoop第一版。
在這個時期,企業級存儲領域的IBM、EMC等也推出了數據湖解決方案,其核心基于分布式文件系統建立的數據存儲方式,橫向擴展比較強大,實現了集中統一管理,但是在云原生方面沒有天然的優勢。
與此同時,基于HDFS系統帶來的Hadoop和Spark開源生態構建,在一定程度上推進了企業數據湖的進程。后期EMR開源數據湖,實現云上托管Hadoop數據湖架構,只是存儲和計算一直耦合在一起,在穩定性、擴展性、成本經濟性方面依然受限,難以深入企業級行業用戶。
一方面,來自開源軟件本身能力的限制, 傳統數據湖技術無法滿足企業用戶在數據規模、存儲成本、 查詢性能以及彈性計算架構升級等方面的需求, 也無法達到數據湖架構的理想目標。
另一方面,在這個時期,企業用戶有了更高的要求,需要更低廉的數據存儲成本、更精細的數據資產管理、可共享的數據湖元數據、 更實時的數據更新頻率以及更強大的數據接入工具。
在云原生數據湖還沒有出現之前,這都屬于數據湖1.0階段。
隨著云原生時代的到來,借助公共云的基礎設施,將數據湖平臺的優勢更廣泛地展現了出來,用戶的技術選擇也更為豐富。HDFS也逐漸被更強大的云存儲系統如對象存儲OSS所取代,對象存儲OSS成為了數據湖的存儲基礎設施。對象存儲OSS的99.995%的可用性SLA、海量擴展能力、冷熱存儲類型、RESTful訪問、HDFS兼容以及計算引擎生態融合,給客戶帶來新的價值,包括:存儲更加穩定可靠、海量數據規模支持、數據冷熱分層成本優化、在線應用通過RESTful API直接寫入數據即可被計算引擎分析,無需數據遷移。
數據湖的引擎也豐富起來,包括了之前Hadoop和Spark的生態引擎、公共云廠商的數據湖引擎。在統一元數據服務模式下,升級之后的數據湖架構由一個核心存儲系統+多個引擎共同構成。
基于此, 阿里云也推出了云原生數據湖體系,由對象存儲OSS、 數據湖構建Data Lake Formation、 E-MapReduce、Data Lake Analytics等產品強強組合,實現了存儲與計算分離的創新架構,立足企業用戶生產環境需求,整體構建湖存儲、湖加速、湖管理、湖計算的云原生數據湖解決方案。
從而,阿里云的云原生數據湖體系的正式建立,也標志著數據湖發展進入2.0階段。數據湖2.0最大的變化就是對于行業定位有了新的內涵,開始聚焦在新型互聯網應用承載生產環境的創新架構,而不再是僅僅面向分析環境,同時以PB、EB級存儲規模為基礎,實現統一元數據服務,擁有加速引擎、分析引擎等多種能力。
事實上,來自互聯網數據、移動數據、社交媒體數據、物聯網數據的規模,遠遠大于傳統數據中心產生的數據,數據湖在公有云廠商領域逐漸發揮出更大的行業影響與輻射力,從互聯網發展起來的數據湖逐漸進入企業用戶核心的生產環境,必然在大數據時代發揮出前所未有的作用。
因此,阿里云推出的業內首個云原生企業級數據湖解決方案,有著非常重要的行業引領性。既可以提供EB級數據存儲與分析能力,又可以一站式實現湖存儲、湖加速、湖管理、湖計算的數據湖整體構建,助力企業的數據挖掘與分析。因此,對于人工智能、物聯網、自動駕駛等擁有海量數據場景的新興行業,有著非常大的吸引力。
釋放數據價值,數據湖2.0帶給企業十大好處
有了對數據湖的前世今生的了解,自然對數據湖的定義也就更為明確了。相對來說,在《云原生數據湖解決方案藍皮書》(Alibaba Cloud Data lake storage solution)中的一段說明比較適合當下數據湖的普遍發展情況。
數據湖的核心定義就是一個存儲平臺,就是一種以集中式存儲各種類型數據,提供彈性的容量和吞吐能力,能夠覆蓋廣泛的數據源,支持多種計算與處理分析引擎,并可以直接對數據進行訪問的統一存儲平臺。
那問題就來了,數據湖發展到現在,到底可以為企業用戶帶來哪些好處?
在阿里云等公共云廠商的推動下,數據湖已經發展到了2.0階段,備受業界矚目的云原生數據湖優勢突出,帶給了企業用戶十大好處,值得一看。
一是,針對數據價值挖掘有著更強大的功能。在實現數據分析、機器學習,數據訪問和管理等細粒度的授權、審計方面,數據湖的發揮更為淋漓盡致。
二是,消除了數據孤島的現象,沒有數據格式類型的限制,所有數據皆可以流入數據湖。用戶的數據產生后,可以按照數據的原始內容和屬性,直接存儲到數據湖,無需在數據流入數據湖之前對數據進行任何的加工或結構化處理。
三是,滿足用戶大規模數據存儲的彈性擴容。支持當前用戶復雜的數據類型,包括結構化數據,如關系型數據庫中的表;半結構化數據,如CSV、JSON 、XML、日志等;非結構化數據,如電子郵件、文檔、PDF、圖形、音頻、視頻等。數據湖都可以實現PB級、EB級的大規模存儲部署。
四是,實現了計算與存儲分離。針對業界公認的未來大方向,存儲與計算分離架構提供了獨立的擴展性,可以做到數據入湖的同時,計算引擎按需擴容,更關鍵的是存算分離解耦方式帶來了更好的性價比。需要指出的是,數據湖所說的計算存儲分離不是數據處理分析引擎和磁盤在不同主機上,而是數據內容存儲和數據處理分析引擎的分離。
五是,數據合規加密,提升了數據安全性。以阿里云企業級云原生數據湖為例,實現了端到端加密,本地數據加密后再傳輸到云上,然后數據落盤再加密,實現了云上全鏈路的加密模式,同時集成國密。在數據加密的基礎上,針對用戶內部人員的操作日志都留存,統一的權限管理,強化了操作合規性與規范化。
六是,基于云存儲系統的基礎架構,高可靠性突出。比如作為企業級云原生數據湖的統一存儲層,阿里云對象存儲OSS基于12個9的持久性設計,提供最高99.995%的可用性SLA,可存儲任意規模的數據,可對接業務應用、各類計算分析平臺,完全滿足企業用戶基于OSS構建云原生的數據湖。
七是,更低的TCO帶來了更好的經濟性,相對于HDFS分布式文件系統(Hadoop Distributed File System)來說,公共云的存儲系統有著更好的成本效應。比如阿里云的OSS可以存儲海量小文件,通過冷熱分層、高密度存儲、高壓縮率算法等創新技術的結合,極大降低單位存儲成本,阿里云OSS歸檔存儲列表價格為0.033元/GB。
八是,實現計算引擎的云原生化,基于OSS數據源的EMR大數據計算環境,結合Hive、Spark等分析引擎,可以更好地利用彈性計算資源,體現出計算彈性的價值。
九是,實現更好的數據開發與治理能力,數據湖結合云上的數據開發治理平臺DataWorks,可以很好地應對數據湖的元數據治理、數據集成、數據開發等問題,提升企業數據開發與治理的敏捷性與創新力。
十是,助力企業用戶業務發展的決策,有著更直接的意義與效果。依托數據湖生命周期重要組成部分,即:數據獲取、數據處理、數據分析和數據存儲,不僅可以應對多樣化數據爆發式增長,同時可以從中獲得數據價值的更好洞察,幫助組織或企業做出更多靈活的、有利于業務成長的決策。
隨著大數據與云計算技術發展的推動,數據湖(Data Lake)被大家越來越接受的同時,也帶來了大家對數據湖價值的全新認識。十大好處,可能還不能完全概括完數據湖的優勢。
構建開放、靈活、可擴展的企業級統一數據管理和分析平臺,數據湖將企業內、外部數據隨需關聯,打破了數據的系統界限。這對于處在數字化轉型關鍵時期的任何企業來說,都是非常重要而有意義的選擇。
與傳統大數據解決方案不同的是,云原生數據湖基于下一代數據湖架構,可直接接入業務生產中心,如業務系統中的原始數據、日志數據等。數據可通過互聯網直接入湖,無需經過中間處理,提升業務效率100%,驅動企業IT系統實現從成本中心轉型為創新中心。
就此,阿里云的云原生企業級數據湖解決方案采用了存儲計算分離架構,基于阿里云對象存儲OSS構建,并與阿里云數據湖分析Data Lake Analytics(DLA)、數據湖構建Data Lake Formation(DLF)、E-MapReduce(EMR)等計算引擎無縫對接,兼容豐富的開源計算引擎生態,可滿足大數據系統統一存儲、海量數據規模,更可靠、更靈活、更安全。
阿里云對于數據湖的“企業級”定義,在于數據湖從企業用戶某個部門的分析引擎定位,成為了生產環境中的大數據“基石”。
行業落地開啟“加速度”,數據湖的to B春天來了
當前,對于任何一個企業的數字化轉型和可持續發展來說,數據湖起著至關重要的作用已經得到了眾多行業的認同。
一方面,利用數據湖智能分析、數據可視化等技術,實現了數據共享、日常報表自動生成、快速和智能分析,滿足企業各級數據分析應用需求。
另一方面,深度挖掘數據價值,助力企業數字化轉型落地。實現了數據的目錄、模型、標準、認責、安全、可視化、共享等管理,實現數據集中存儲、處理、分類與管理,實現報表生成自動化、數據分析敏捷化、數據挖掘可視化,實現數據質量評估、落地管理流程。
全球云觀察分析認為,基于云原生的優勢,企業級云原生數據湖帶來的行業變革,將會是一個持久的、深入的過程。
目前來看,阿里云的云原生數據湖,已經在多個行業中實現了廣泛落地,這在很大程度上為企業級行業領域的數據湖落地開啟了“加速度”。
從當前阿里云數據湖的最佳實踐總結來看,可以為企業行業領域提供主要五大解決方案,包括了基于EMR開源生態和云原生服務構建數據湖、云原生數據湖分析(DLA)方案、構建分層模式混合數據湖、海量數據交互式查詢解決方案,以及基于數據湖打造機器學習能力。
在廣告行業,針對精準投放質量,通過什么渠道推廣給什么類型的人,通過數據湖的分析引擎來實現。
比如Yeahmobi是一家技術驅動發展的國際化智能營銷服務公司,致力于為客戶提供精準的全球營銷推廣服務。針對Yeahmobi在全球業務中需要統一治理數據資產,同時需要提供高并發、高彈性的存儲服務需求,Yeahmobi基于阿里云構建了一站式的數據湖解決方案。
Yeahmobi每天執行上百個按量超大規模EMR集群,數據量讀取超百TB,支撐全球計算分析業務。通過基于阿里云數據湖解決方案的數據采集、數據存儲和數據分析的全周期模式,助力Yeahmobi實現了時間、成本、安全、計算效率等方面的改善,使得綜合運行成本降低大約 50%。
在智慧教育行業,數字化的教育通過AI分析,對教室講課的語速、學生表情、大家反應等情況產生的數據來優化教育效果。
比如流利說是世界領先的科技驅動的教育公司,作為智能教育的倡行者,流利說擁有一支業內領先的人工智能團隊,經過多年積累,流利說已擁有巨型的“中國人英語語音數據庫”,累積實現記錄大約37億分鐘的對話和504億句錄音。針對流利說日常業務對云服務的彈性、穩定性和大算力的極高要求,阿里云為流利說量身定制了一站式數據湖解決方案。通過阿里云OSS直接存儲原始音頻數據,極大的簡化了業務架構,并能快速對接阿里云 EMR 構建的大數據計算集群,包括 Hive、Spark、Presto在內的多種大數據計算引擎。
通過阿里云為流利說量身打造的數據湖解決方案,解決了流利說多種應用的各類數據的統一存儲,幫助流利說構建數據規模高達上千億的“中國人英語語音數據庫”。使用阿里云構建的數據湖,可以充分發揮計算與解耦 合架構的優點,結合阿里云ECS彈性實例和K8S,根據實際業務需求,動態擴展、縮減對應計算資源,無須按 照業務峰值常駐計算資源,這種靈活的使用模式,能夠幫助流利說最大程度地優化成本。
在智慧制造行業,有哪些產品更適合用戶的需求,如汽車行業的汽車顏色、車型、配件等哪些適合用戶的喜好,通過數字化分析來優化汽車創新設計,打通供應鏈給用戶更多個性化選擇。
比如某太陽能整體解決方案提供商通過大數據整合能力,來提升制造良品率。基于阿里云數據湖構建了整套大數據解決方案,所有數據采集后統一存儲到阿里云OSS,通過細粒度級訪問控制能力有效保護生產數據,集成加密技術,使得所有制造過程誕生的數據能夠獲得在數據湖上的有效保護,并且達到工業大數據安全管理的核心目標:“看得見、控得住、管得好”。
與此同時,結合人工智能算法實現深度學習應用,通過關聯參數的組合,分析出與影響良品率、光電轉化率的關鍵參數,進一步獲得生成工藝的優化,讓良品率提升超過5%。通過對海量采集數據的分析,結合工藝參數模型,實現設備異常及工藝參數異常的提前預警,實現整個生產過程的主動式管理,最終在光電轉換效率方面獲得整體提升。
在智慧出行的行業,某智能出行產品公司通過大數據方案,不斷優化車輛的管理運維。借助車輛智能傳感器,感應車輛實時信息,通過阿里云日志服務SLS采集后,將數據匯聚存儲到阿里云數據湖。通過海量的騎行數據、地理位置信息和車輛運行狀態信息,動態調整部署車輛的區域,補充新車輛,及時定位出有問題的車輛進行修理和更換,保障用戶的騎行體驗。
通過大數據的賦能,能夠根據各個區域不同的使用特點,制定不同的投放策略,達到車輛資源充分使用率、增加有效投放。通過數據湖的使用,不同類型車輛的采集信息都可以采用先入湖、后處理的方式,讓設備的更新、升級更為簡單,阿里云數據湖支持互聯網訪問的特性,大幅度簡化了物聯網設備數據存儲路徑,無需借助其他中間系統幫助。
在游戲行業,某國內某知名社交游戲公司通過數據湖構建的大數據方案,提升玩家的留存率。基于阿里云數據湖方案,通過日志服務SLS,將全球數據實時投遞到數據湖中的OSS,統一存儲與管理。借助OSS海量彈性能力的冷熱分層,通過EMR和DLA搭建存算分離的大數據架構,實現千萬日活的玩家鏈路、智能推薦、實時分析、實時渠道統計、精細化運營,并獲得了30%的用戶留存率。
在智慧營銷行業,AddNewer加和科技是國內商業智能解決方案提供商,幫助企業實現數字智慧在運營和決策層面的應用,助力產業的效率升級和多行業間的跨界融合。針對加和科技在數據一源多用、快速分析、多級存儲等方面的需求,阿里云從數據存儲層、計算層和應用層為切入點,為加和科技構建了一站式的數據湖解決方案。
從完美支撐了加和ReachMax日均150億條,近2000列的數據分析和大量的臨時數據統計需求,幫助加和科技高達50億元人民幣流量決策和分析服務。利用數據湖解決方案的多進多出、分層計費和全類型備份的能力,幫助加和大幅簡化了數據存儲和應用的復雜度,相比之前自建的解決方案, 需求的平均成本降低 30%。
在智慧金融行業,上海數禾信息科技有限公司以大數據和技術為驅動,為金融機構提供高效的智能零售金融解決方案,服務銀行、信托、消費金融公司、保險、小貸公司等持牌金融機構,提供營銷獲客、風險防控、運營管理等服務。針對數禾科技在日常業務中面臨到的數據統一存儲和治理、計算性能和高彈性的需求,阿里云為其搭建了統一的數據湖解決方案。
采用阿里云數據湖解決方案后,數禾科技做到了全面記錄、全面是實時化、全面治理、場景驅動和安全合規的數 據管理之道。幫助數禾科技真正實現數據驅動業務發展,真正地實現一切業務數據化,以及一切數據業務化。
目前,已有多個行業的幾千家企業在阿里云上構建了云數據湖。隨著企業級云原生數據方案的推進,數據湖的行業落地必然開啟了“加速度”,這也預示著數據湖的to B春天來了。
阿里云智能存儲產品資深總監陳起鯤分析指出,當前,對于大數據用戶來說,大數據分析成是其業務核心,而算法的產生成為了最新的核心資產,以云原生數據湖構建的大數據引擎也就順理成章地成為了用戶的生產環境。
由此,企業用戶也從數字化轉型升級到數智化轉型,需要在數據分析上有著本質的提升,其中需要構建創新算法,而基礎的基礎就需要大數據引擎,即數據湖。大數據分析與生產環境深入融合,讓云原生數據湖正式在企業級領域中發揮出舉足輕重的作用。
有了企業級云原生數據湖之后,to B的一切也都變得更加智能起來。
責任編輯:gt
-
制造業
+關注
關注
9文章
2310瀏覽量
54366 -
阿里巴巴
+關注
關注
7文章
1636瀏覽量
48092 -
阿里云
+關注
關注
3文章
1005瀏覽量
43888
發布評論請先 登錄
永貴科技榮獲2025中國充換電行業十大充電槍品牌
松盛光電榮膺2024年度中國十大光學產業技術應用類獎
年度電解槽十大品牌+年度制氫十大供應商,穩石氫能榮獲兩大獎項!
華為發布2025數據中心能源十大趨勢
華為發布2025充電網絡產業十大趨勢
洲明科技榮獲十大照明工程企業
華為發布2025智能光伏十大趨勢
敦泰榮獲車載顯示年度十大知名品牌
佰維存儲榮獲十大數智化轉型創新企業
租用多ip云服務器可以帶來哪些好處?應用場景有哪些?
“智能網聯汽車全球十大發展突破”在京發布

中國信通院發布“2024云計算十大關鍵詞”

評論