大數(shù)據(jù)指的是創(chuàng)建的數(shù)據(jù)和供分析的數(shù)據(jù)的數(shù)量與速率迅速增加。
大數(shù)據(jù)使分析師和數(shù)據(jù)專(zhuān)家有機(jī)會(huì)獲得更好的見(jiàn)解,進(jìn)行更明智的決策,但是它同時(shí)也會(huì)帶來(lái)許多的挑戰(zhàn):可用的內(nèi)存可能無(wú)法足以處理大數(shù)據(jù)集,可能需要花太久的時(shí)間進(jìn)行處理或可能流動(dòng)太快而無(wú)法存儲(chǔ)。標(biāo)準(zhǔn)算法通常不能以合理的時(shí)間或內(nèi)存來(lái)處理大數(shù)據(jù)集等等。
目前沒(méi)有任何一種單一方法可以處理大數(shù)據(jù)。為此,MATLAB 提供了許多工具來(lái)解決這些挑戰(zhàn)。
在 MATLAB 中處理大數(shù)據(jù)
1. 64 位計(jì)算。
64 位版本的 MATLAB 可迅速增加內(nèi)存中可保留的數(shù)據(jù)量——通常可達(dá)到任意 32 位程序的 2000 倍。32 位程序限制您只能使用 2 GB 的內(nèi)存,而 64 位 MATLAB 的內(nèi)存可以達(dá)到操作系統(tǒng)的物理內(nèi)存限制。對(duì)于 Windows 8,臺(tái)式機(jī)內(nèi)存為 500 GB,Windows Server 內(nèi)存為 4 TB。
2. 內(nèi)存映射的變量。
借助 MATLAB 中的memmapfile函數(shù),您可以將文件或文件的一部分映射到內(nèi)存中的 MATLAB 變量。這樣,您就可以高效訪問(wèn)磁盤(pán)上由于太大而無(wú)法保留在內(nèi)存中或需要花太長(zhǎng)時(shí)間而無(wú)法加載的大數(shù)據(jù)集。
3. 磁盤(pán)變量。
matfile函數(shù)使您可以直接從磁盤(pán)上的 MAT 文件訪問(wèn) MATLAB 變量(使用 MATLAB 索引命令),無(wú)需將全部變量加載到內(nèi)存。這使您可以在大數(shù)據(jù)集上進(jìn)行塊處理,這些大數(shù)據(jù)集因?yàn)樘蠖鵁o(wú)法保存在內(nèi)存中。
4. 內(nèi)在的多核數(shù)學(xué)。
MATLAB 中的許多內(nèi)置數(shù)學(xué)函數(shù),如fft、inv和eig都是多線程的。通過(guò)并行運(yùn)行,這些函數(shù)充分利用計(jì)算機(jī)的多核,提供高性能的大數(shù)據(jù)集計(jì)算。
5. GPU 計(jì)算。
如果您正在使用 GPU,Parallel Computing Toolbox中的GPU 優(yōu)化的數(shù)學(xué)函數(shù)可以為大數(shù)據(jù)集提供更高的性能。
6. 并行計(jì)算。
Parallel Computing Toolbox提供并行 for 循環(huán) , 該循環(huán)在多核計(jì)算機(jī)上并行運(yùn)行您的 MATLAB 代碼和算法。如果您使用MATLAB Distributed Computing Server,則可以在機(jī)器群集上并行執(zhí)行,這些機(jī)器可擴(kuò)展到數(shù)千臺(tái)計(jì)算機(jī)。
7. 云計(jì)算。
對(duì)于數(shù)百或數(shù)千臺(tái)計(jì)算機(jī)的按需并行處理,您可以在 Amazon Elastic Computing Cloud(亞馬遜彈性計(jì)算云)(EC2) 上使用MATLAB Distributed Computing Server并行運(yùn)行 MATLAB 計(jì)算。借助云計(jì)算,您無(wú)需購(gòu)買(mǎi)或維護(hù)您自己的群集或數(shù)據(jù)中心就可以處理大數(shù)據(jù)。
8. 分布式陣列。
使用Parallel Computing Toolbox和MATLAB DistributedComputing Server,您可以處理分布在計(jì)算機(jī)群集內(nèi)存中的矩陣和多維數(shù)組。使用此方法,您可以針對(duì)因太大而無(wú)法由單臺(tái)計(jì)算機(jī)內(nèi)存處理的大數(shù)據(jù)集,進(jìn)行存儲(chǔ)和執(zhí)行計(jì)算。
9。 流式算法。
使用系統(tǒng)對(duì)象,您可以對(duì)因太大或太快而無(wú)法保留在內(nèi)存中的數(shù)據(jù)傳入流執(zhí)行流式處理。此外,您還可以使用MATLAB Coder通過(guò) MATLAB 算法生成嵌入式 C/C++ 代碼,并針對(duì)高性能實(shí)時(shí)系統(tǒng)運(yùn)行產(chǎn)生的代碼。
10. 圖像塊處理。
使用Image Processing Toolbox中的blockproc函數(shù),您可以處理特別大的圖像,方法是每次以模塊的形式高效處理它們。與Parallel Computing Toolbox一起使用時(shí),在多核和 GPU 上并行運(yùn)行計(jì)算。
11. 機(jī)器學(xué)習(xí)。
機(jī)器學(xué)習(xí)有助于通過(guò)大數(shù)據(jù)集提取見(jiàn)解和開(kāi)發(fā)預(yù)測(cè)性模型。廣泛的機(jī)器學(xué)習(xí)算法,包括Statistics and Machine Learning Toolbox和Neural Network Toolbox中提供的促進(jìn)式 (boosted) 和袋裝 (bagged) 決策樹(shù)、K 均值和分層聚類(lèi)、k-最近鄰搜索、高斯混合、期望最大化算法、隱馬爾可夫模型和神經(jīng)網(wǎng)絡(luò)。
-
計(jì)算機(jī)
+關(guān)注
關(guān)注
19文章
7630瀏覽量
90183 -
機(jī)器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8492瀏覽量
134092 -
大數(shù)據(jù)
+關(guān)注
關(guān)注
64文章
8952瀏覽量
139483
發(fā)布評(píng)論請(qǐng)先 登錄
普源示波器如何連接MATLAB實(shí)現(xiàn)數(shù)據(jù)采集與分析
工業(yè)電機(jī)行業(yè)現(xiàn)狀及未來(lái)發(fā)展趨勢(shì)分析
緩存對(duì)大數(shù)據(jù)處理的影響分析
Simulink與 MATLAB 的結(jié)合使用 Simulink中的信號(hào)處理方法
大數(shù)據(jù)的3V、4V、7V,到底是什么意思?

上位機(jī)系統(tǒng)優(yōu)化技巧 上位機(jī)如何處理大數(shù)據(jù)
bds 行業(yè)發(fā)展趨勢(shì)分析 bds在大數(shù)據(jù)中的應(yīng)用
raid 在大數(shù)據(jù)分析中的應(yīng)用
emc技術(shù)在大數(shù)據(jù)分析中的角色
智慧城市與大數(shù)據(jù)的關(guān)系
云計(jì)算在大數(shù)據(jù)分析中的應(yīng)用
IP 地址大數(shù)據(jù)分析如何進(jìn)行網(wǎng)絡(luò)優(yōu)化?

基于Kepware的Hadoop大數(shù)據(jù)應(yīng)用構(gòu)建-提升數(shù)據(jù)價(jià)值利用效能

評(píng)論