數據挖掘中應用較多的技術機器學習。
機器學習主流算法包括三種:關聯分析、分類分析、聚類分析。本文主要介紹分類分析、聚類分析。
圖片來源:來自網絡
一、分類分析
(1)分類分析概念 分類分析是指算法通過學習得出“某種分類依據”,該分類依據可以判斷一個新事物的類別(含個人理解)。
(2)分類分析過程 分類分析包括兩個過程:
1)通過大量樣本的訓練,使算法可以建立準確率超過某值的分類依據。
2)算法根據分類依據對新事物分類。
(3)分類分析過程與學生學習過程對比
1)學生本身具有學習能力,但不會做某一類型的題。這類似于機器學習算法具有學習能力,但不會對某一事物進行分類。
2)學生在學習過程中需要做大量習題,而且還需要根據標準答案確定每道題的正誤,學生在該過程逐步調整其知識體系。這類似于機器學習算法需要通過大量樣本的訓練,機器學習的每個樣本均包含輸入和輸出,機器學習可以通過將樣本輸入其建立模型得出的輸出與樣本輸出(樣本輸出類似標準答案)進行對比,判斷其建立模型的準確性,不斷調整其建立的模型。
3)當學生掌握所學的知識后,其就具備了在考試中解答新的同類型問題的能力。這類似于機器學習算法通過其建立的模型對新事物分類。
(4)分類分析算法
常見的分類分析算法包括:決策樹、K近鄰法(kNN)、樸素貝葉斯、感知機、支持向量機(SVM)。
更高級的分類分析方法包括:邏輯斯諦回歸(Logistic回歸)、貝葉斯網絡、神經網路等。
二、聚類分析
(1)聚類分析概念
聚類分析是將一群物理對象劃分成相似的對象集合的過程。在聚類分析中,各個聚類內的數據對象是相似的,不同聚類間的對象是相異的。
圖片來源:來自網絡
(2)聚類分析與分類分析對比
與分類分析類似,聚類分析的目的也是將樣本劃分至不同的子集。兩者不同的是:分類分析需要大量樣本訓練,分類分析的算法在學習過程中需被告知每個樣本的類別;聚類分析不需要訓練樣本,聚類分析的算法學習的數據是沒有指導信息的數據,聚類分析的算法通過其內部機制對樣本進行劃分,將“它”認為同類的數據進行聚類。
(3)聚類分析與日常事物分類方式對比 聚類分析的分類方式使其對事物的分類方式可能有別于日常生活中對事物的劃分。
例如,日常生活中如果對香蕉、草莓、木塊分類,人們可能更容易將香蕉和草莓劃分為水果一類,將木塊劃分為另外的類別;但聚類分析算法可能將香蕉和木塊劃分為一類,將草莓劃分為另外的類別,分類依據是香蕉和木塊都是黃色的。
圖片來源:來自網絡
(4)聚類分析方法
聚類分析的常用方法包括:K-means算法、K中心點算法、層次聚類算法等。
審核編輯:劉清
-
SVM
+關注
關注
0文章
154瀏覽量
32957 -
機器學習
+關注
關注
66文章
8492瀏覽量
134122 -
神經網路
+關注
關注
0文章
8瀏覽量
2685
原文標題:大數據相關介紹(25)——機器學習之分類分析、聚類分析
文章出處:【微信號:行業學習與研究,微信公眾號:行業學習與研究】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
電阻器在導電材料上之分類
BP神經網絡的優缺點分析
zeta在機器學習中的應用 zeta的優缺點分析
傅立葉變換在機器學習中的應用 常見傅立葉變換的誤區解析
行為分析智能監測攝像機

評論