諸如結構式訪談、非結構式訪談、開放式問卷調查、封閉式問卷調查、記錄評論和觀察等技術統稱為事實調查方法。這種事實調查方法和其他數據獲取方法可以采取自動化,而不必使用人工方法。
使用具有專用軟件的物理設備(如終端、傳感器和掃描儀等)也可用于管理物理設備和系統之間的接口。隨后,這些數據可以通過典型的編程語言(如Java、Visual Basic、C++、MatLab和Lisp)來進行部分管理。也可使用開源和專用的數據采集軟件,如MIDAS(最大集成數據采集系統)。
通常,數據采集系統是作為一個專用的獨立系統而開發的,這種系統被稱為數據記錄器。在有特殊需求的情況下,系統的工作模型已準備好,并且也已呈現給了數據科學家。這樣的原型有助于用戶在系統實際構建之前測試數據獲取機制。這有助于收集額外要求并測試已提出系統的可行性。
這里有發現更高層次內容的知識獲取和機器學習方法(例如從資源中自動地獲取信息和知識),這種知識獲取方法的例子如概念圖、審計、神經網絡和其他與自動知識發現相關的方法。
在其他工具中,數據清洗工具、數據管理和建模工具以及數據可視化工具都非常重要。本文列出了不同類別中的一些主要工具。
01
數據清洗工具
一旦完成數據收集,便需要檢查其清潔度。數據清洗通常稱為數據凈化,即其數據從源中刪除或更正臟數據的過程。數據聲明程序的目標是識別和消除數據中的錯誤,為進一步分析、建模和可視化提供一致的數據。
在數據項層級上,一些不正確的數據通過適當的驗證被拒絕。在諸如文件和數據庫的同構數據集合中,不一致程度和錯誤數量較少。在來自多個數據源的具有異構性質的大型數據庫(如數據倉庫、聯邦數據庫系統或全球基于Web的系統)中,數據清洗變得至關重要。
產生這些問題的原因有:
(1)不同的格式
(2)冗余數據
(3)數據使用的術語和標準不同
(4)合并數據使用的方法
刪除不準確的、不完整或不合理的數據會提高數據的質量。缺失值、特殊值、范圍檢查、演繹修正、插值、最小值調整、錯字、審計和工作流規范檢查等是數據清洗的常用機制。
除了編程語言外,常用的數據清理工具如下所列。
1. Lavastorm分析
用于分析引擎等產品。
www.lavastorm.com
2. IBM InfoSphere信息服務器
分析、理解、清洗、監視、轉換和傳輸數據。
http://www-03.ibm.com/software/products/en/infosphere-information-server/
3. SAS數據質量服務器
清洗數據,并在數據流管理服務器上執行作業和服務。
www.sas.com
4. Oracle的主數據管理(MDM)
是處理大量數據,并且提供諸如合并、清洗、擴充和同步企業的關鍵業務數據對象等服務的解決方案。
http://www.oracle.com/partners/en/most-popular-resources/059010.html
5. 益百利 QAS清洗服務
為地址驗證提供CASS認證(編碼精度支持系統)。
http://www.qas.co.uk/
6. NetProspex
為數據清理、追加以及正在進行的市場數據管理提供支持。在印度,它現在是鄧白氏信息服務公司的一部分,其提供數據管理轉換和數據質量程序。
http://www.netprospex.com/
http://www.dnb.co.in/
7. Equifax
為數據庫管理、數據集成和數據分析提供解決方案。
http://www.equifax.co.in/
8. CCR Data
清理并審計數據。該公司研發了ADAM—數據清理平臺。
9. Oceanosinc公司提供的解決方案
用于數據清理、聯系發現和商業智能。
http://www.oceanosinc.com/
10. Nneolaki
提供的工具用于數據收集、清理、附加和管理。
http://neolaki.net/
11. 數據清洗產品
為數據清洗提供方案。
http://www.datacleanser.co.uk/
02
數據管理和建模工具
數據科學實踐中的其他重要活動是數據管理和數據準備,其也被稱作數據整理。數據整理是將數據轉換或映射為格式良好的數據流的過程,以便數據可以順利地用于后續處理。
實際上,該過程允許通過工具便利和自動地使用數據來進行進一步的活動。排序、解析、提取、分解和恢復數據是數據管理階段的主要活動。諸如Pearl、R、Python等編程工具以及來自編程語言和軟件包的一些現成庫可用于支持數據管理活動。
一旦數據準備好進行分析,諸如線性回歸、運籌學方法以及決策支持系統等技術便通常用于數據建模。在這里,數據建模的基本目標是,為了提高商業洞察力進而確定干凈且有效的數據實體之間的關系。
致力于這個階段的數據科學家或專家被稱為數據建模者。數據建模可以在概念層面、企業層面和物理層面完成。以下是支持數據建模的主要工具。
12. CA ERwin數據模擬
為管理復雜數據提供了簡單的可視化界面。
http://erwin.com/products/data-modeler
13. Database Workbench
為使用多個數據庫進行開發提供了一個單一的開發環境。
http://www.upscene.com/database_workbench/
14. DeZign for Databases
是一個支持數據庫設計和建模的工具。它還為數據庫應用程序開發提供了復雜的可視化數據建模環境。
http://www.datanamic.com/dezign/
15. Enterprise Architect
是用于數據建模和軟件工程的完全集成的圖形支持工具。
http://www.sparxsystems.com/products/ea/
16. ER/Studio
為數據管理專業人員提供協作機制以構建和維護企業級數據模型和元數據存儲庫。
http://www.embarcadero.com/products/er-studio
17. InfoSphere 數據架構師(理性數據架構師)
是一種協作式的數據設計方案。它簡化了倉庫設計、維度建模以及管理任務的變更。
http://www-03.ibm.com/software/products/en/ibminfodataarch/
18. ModelRight
為數據庫設計人員提供了諸如數據庫設計、圖形支持、報告和可視化界面等活動的支持。
http://www.modelright.com/products.asp
19. MySQL Workbench
為數據庫架構師、開發人員和數據庫管理員提供了統一的可視化工具。MySQL Workbench還提供數據建模、SQL開發和綜合管理。
http://www.mysql.com/products/workbench/
20. Navicat數據模擬器
有助于創建高質量的邏輯數據模型和物理數據模型。
http://www.navicat.com/products/navicat-data-modeler
21. Open ModelSphere
是一款獨立于平臺且免費的建模工具,可用作開源軟件。它為數據建模和軟件開發的所有階段提供了普遍支持。
http://www.modelsphere.org/
22. Oracle SQL Developer Data Modeler
是一款用于創建、瀏覽和編輯數據模型的免費圖形工具。它支持邏輯的、關系的、物理的、多維的以及數據類型的模型。
http://www.oracle.com/technetwork/developer-tools/datamodeler/overview/index.html
23. PowerDesigner
管理設計時間更改和元數據。
http://www.powerdesigner.de/
24. Software Ideas Modeler
通過諸如UML、業務流程模型和符號(BPMN)、系統建模語言(SysML)等的標準圖以及多圖表,為建模提供支持。
https://www.softwareideas.net/
25. SQLyog
是一個強大的MySQL管理者和管理工具。
https://www.webyog.com/
26. Toad Data Modeler
是一個數據庫設計工具,其用于設計新的結構、實體關系圖和SQL腳本生成器。
http://www.toad-data-modeler.com/
03
數據可視化工具
數據可視化是指數據的圖形表示。數據的可視化使得理解數據和溝通變得更容易。
有很多可用于數據可視化的工具,下面列出了一些常用可視化工具:
27. Dygraphs
是一個快速且靈活的開源JavaScript圖表庫,其允許用戶探索和解釋密集的數據集。Dygraphs是一個高度可定制的工具。
http://dygraphs.com/
28. ZingChart
是一個JavaScript圖表庫,其能為大量數據提供快速和交互式的圖表。
http://www.zingchart.com/
29. InstantAtlas
以有效的視覺方式提供交互式示意圖和報告軟件。
http://www.instantatlas.com/
30. Timeline
可以制作出美觀的互動時間表。
http://www.simile-widgets.org/timeline/
31. Exhibit
是由麻省理工學院開發的完全開源軟件,其有助于創建交互式的示意圖和其他基于數據的可視化。
http://www.simile-widgets.org/exhibit/
32. Modest Maps
對于想要使用交互式示意圖的設計者和開發者來說,是一個免費的圖書館。
http://modestmaps.com/
33. Leaflet
是適用于移動友好交互式示意圖的現代開源JavaScript庫。
http://lea?etjs.com/
34. Visual.ly
有助于創建視覺表征。
http://create.visual.ly/
35. Visualize Free
構建交互式可視化,用來說明簡單圖表不易表示的數據。
http://visualizefree.com/index.jsp
36. 多眼
IBM研發的“多眼”可以幫助用戶從數據集創建可視化并啟用數據分析。
http://www-969.ibm.com/software/analytics/manyeyes/
37. D3.js
是一個JavaScript庫,D3.js從多個數據源使用HTML、SVG和CSS來生成圖形和圖表。
http://d3js.org/
38. Google Charts
提供一種機制來以多種交互式圖表(如線形圖、復雜的分層樹形圖等)的形式對數據進行可視化。
https://developers.google.com/chart/interactive/docs/
39. Crossfilter
是一個JavaScript庫,其用于探索瀏覽器中的大規模多變量數據集。此外,Crossfilter還提供可協調的3D可視化。
http://square.github.io/cross?lter/
40. Polymaps
在地圖上提供了快速且多縮放的數據集演示。
http://polymaps.org/
41. Gephi
是一款適用于各種網絡、復雜系統、動態和分層圖形的交互式的可視化探索平臺。它支持探索性數據分析、鏈接分析、社交網絡分析以及生物網絡分析。該工具為已識別的類似數據集呈現彩色區域。
https://gephi.github.io/
除了上述工具和技術之外,數據科學領域還需要其他更多的專用新工具。由于數據科學領域是來自多個學科的技術聯盟,并且具有無處不在的應用,因此數據科學在研究和開發中必須被賦予最重要的地位。此外,數據科學領域還需要文檔編制、新的技術和模型。
典型的模型和技術可能不適合已獲取的數據集,這些數據需要典型方法外的支持。在這里,人工智能技術可能會有很大的貢獻。
-
神經網絡
+關注
關注
42文章
4814瀏覽量
103604 -
數據管理
+關注
關注
1文章
312瀏覽量
20023 -
可視化
+關注
關注
1文章
1262瀏覽量
21862
原文標題:41款實用工具,數據獲取、清洗、建模、可視化都有了
文章出處:【微信號:rgznai100,微信公眾號:rgznai100】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
一文看懂芯片的設計流程

在低功耗藍牙產品開發的過程中,會涉及到一些參數的選擇和設定,這些參數是什么意思,該如何設定呢?(藍牙廣播)
Debian和Ubuntu哪個好一些?
樹莓派在自動化控制項目中的一些潛在應用

MHMF082L41N-MINAS A6N系列 介紹 松下

一些常見的動態電路

安森美系統設計工具介紹

分享一些常見的電路

Kali Linux常用工具介紹
MHMF042L41N-MINAS A6N系列 介紹 松下

MHMF041L41N-MINAS A6N系列 介紹 松下

NFC IC配置工具NFC Cockpit的主要特性

MHMF022L41N-MINAS A6N系列 介紹 松下

評論