女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

無監督學習的數據集變換和聚類

汽車玩家 ? 來源:CSDN ? 作者:zzc_zhuyu ? 2020-05-04 18:28 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

1、類型

主要有兩種類型:數據集變換和聚類。

無監督變換:

降維:接受數據的高維表示,找到新的表示方法,以用較少的特征概括重要特性。

找到“構成”數據的各個組成部分。例如,文本的主題提取。

聚類:

將數據劃分成不同的組,每組包含相似的物項

2、降維

1. 主成分分析(PCA)

一種旋轉數據集的方法,旋轉后的特征在統計上不相關。旋轉后,通常根據新特征對數據集的重要性來選擇它的一個子集。

主成分

方差最大的方向為“成分1”,這是包含包含最多信息的方向。之后找到與“成分1”正交的包含信息最多的方向,得到“成分2”……利用這一過程找到的方向成為主成分。通常,主成分的個數與原始特征相同。

在PCA找到的額旋轉表示中,坐標軸之間 不相關。

應用

高維數據集可視化

特征提取:找到一種數據表示,比給定的原始表示更適合于分析。

對PCA模型的另一種理解:僅適用一些成分對原始數據進行重建。

2. 非負矩陣分解(NMF)

在NMF中,目標是分量和系數均為非負。只能應用于每個特征都是非負的數據,因為非負分量的非負求和不可能得到負值。

與PCA不同,減少分量個數不僅會刪除一些方向,而且會創建一組完全不同的分量。

NMF的分量沒有按任何特定方法排序,所有分量的地位平等。

NMF使用了隨機初始化,根據隨機種子的不同可能會產生不同的結果。

3. t-SNE與流形學習

流形學習算法 :主要用于可視化,允許進行更復雜的映射。只能變換用于訓練的數據。

t-SNE:找到數據的一個二維表示,盡可能保持數據點之間的距離。試圖保存那些點比較靠近的信息。

3、聚類

聚類:將數據集劃分成組的任務,這些組叫做簇。

1. K均值聚類

原理

試圖找到代表數據特定區域的簇中心

算法過程

① 將每個數據點分配給最近的簇中心

② 將每個簇中心設置為所分配的所有數據點的平均值,如果簇的分配不再變化,結束;反之,執行步驟1

注:聚類算法與分類算法類似,但不存在真實的標簽,標簽本身沒有先驗意義。

注意

每個簇僅由其中心決定,這意味著每個簇都是凸型的,因此,只能找到相對簡單的形狀。

k均值假設所有簇在某種程度上有相同的直徑,它總是將簇之間的邊界剛好畫在簇中心的中間位置

k均值假設所有方向對每個簇同等重要

特點

優點:

容易理解和實現

運行速度相對較快

擴展到大型數據集比較容易

缺點:

依賴于隨機初始化

對簇形狀的假設的約束性較強

要求制定所要尋找到簇的個數

2. 凝聚聚類

算法首先聲明每個點是自己的簇,然后合并兩個最相似的簇,直到滿足某種停止準則為止。

連接準則:規定如何度量“最相似的簇”。

① ward型:兩個簇合并后,使得所有簇中方差增加最小

② average型:平均距離最小的兩個簇合并

③ complete型:簇中點之間最大距離最小的兩個簇合并

注:凝聚算法不能對新數據點做出預測

凝聚聚類生成了所謂的層次聚類

3. DBSCAN (具有噪聲的基于密度的空間聚類應用)

原理

識別特征空間的“擁擠”區域中的點,這些區域成為密集區域。簇形成數據的密集區域,并由相對較空的區域分隔開。在密集區域中的點成為核心樣本,指定參數eps和min_samples。如果在一個點eps的距離內至少有min_samples個數據點,則為核心樣本。

算法過程

① 任意選取一個點,檢查是否是核心樣本。

② 若不是,標記為噪聲。反之,標記為核心樣本,并分配一個新的簇標簽。然后檢查鄰居,若未被分配,分配簇標簽;如果是核心樣本,依次訪問鄰居。

③ 選取另一個尚未被訪問過的點,重復以上過程。

最后得到三種點:核心點、邊界點、噪聲。

特點

優點:

不需先驗設置簇的個數

可以劃分具有復雜形狀的簇

可以找出不屬于任何簇的點

缺點:

不允許對新的測試數據進行預測

聚類評估

1. 真實值評估

調整rand指數(ARI),歸一化互信息(NMI)

二者都給出了定量的度量,最佳值為1,0表示不相關的聚類。

2. 沒有真實值

輪廓系數 計算一個簇的緊致度,值越大越好,最高分數為1。雖然緊致的簇很好,但不允許復雜的形狀。

聚類小結

k均值

可以用簇的平均值來表示簇。

可被看做是一種分解方法,。每個數據點都由其簇中心表示

DBSCAN

可以檢測噪聲點

可以自動判斷簇的數量

允許簇有復雜的形狀

有時會生成大小差別很大的簇,可能是優點可能是缺點

凝聚聚類

可以提供數據的可能劃分的整個層次結構

可以通過樹狀圖查看

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 算法
    +關注

    關注

    23

    文章

    4710

    瀏覽量

    95392
  • 無監督學習
    +關注

    關注

    1

    文章

    17

    瀏覽量

    2829
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    任正非說 AI已經確定是第四次工業革命 那么如何從容地加入進來呢?

    的基本理論。了解監督學習監督學習和強化學習的基本原理。例如,在監督學習中,理解如何通過標注數據
    發表于 07-08 17:44

    張飛FOC磁場定向控制有感、感電機驅動視頻課程及STM32開發套件(共257)

    8)FOC有感感控制原理及框圖介紹 9)SVPWM理論、推導、調試 10)標幺化、定點化、Q格式介紹 11)三電阻、雙電阻、單電阻采樣思路分析 12)坐標變換(Clarke變換、Park
    發表于 07-02 15:59

    機器學習異常檢測實戰:用Isolation Forest快速構建標簽異常檢測系統

    本文轉自:DeepHubIMBA監督異常檢測作為機器學習領域的重要分支,專門用于在缺乏標記數據的環境中識別異常事件。本文深入探討異常檢測技術的理論基礎與實踐應用,通過Isolatio
    的頭像 發表于 06-24 11:40 ?636次閱讀
    機器<b class='flag-5'>學習</b>異常檢測實戰:用Isolation Forest快速構建<b class='flag-5'>無</b>標簽異常檢測系統

    數據下載失敗的原因?

    數據下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓練報錯網絡錯誤 大的數據多大?數據量有多少?
    發表于 06-18 07:04

    使用MATLAB進行監督學習

    監督學習是一種根據未標注數據進行推斷的機器學習方法。監督學習旨在識別
    的頭像 發表于 05-16 14:48 ?687次閱讀
    使用MATLAB進行<b class='flag-5'>無</b><b class='flag-5'>監督學習</b>

    橋PFC變換器綜述

    器拓撲的發展歷程進行了全面綜述,并將橋 PFC 變換器拓撲合成方案分為三大,分別進行了詳細介紹。最后,給出了無橋變換器拓撲的發展方向。 關鍵詞:
    發表于 03-13 13:50

    數據降維工具介紹——SpatialPCA

    ,NMF)等,多是基于單細胞數據進行開發的,因此不一定完全適用于空間轉錄組數據。例如,常用的降維方法并沒有運用空間轉錄組所特有的組織空間定位信息,而僅僅只是基于表達譜進行
    的頭像 發表于 02-07 11:19 ?626次閱讀
    <b class='flag-5'>數據</b>降維<b class='flag-5'>聚</b><b class='flag-5'>類</b>工具介紹——SpatialPCA

    傅立葉變換在機器學習中的應用 常見傅立葉變換的誤區解析

    傅里葉變換在機器學習中的應用 傅里葉變換是一種將信號分解為其組成頻率分量的數學運算,它在機器學習中的應用日益廣泛。以下是一些主要的應用領域: 信號處理 : 音頻處理:傅里葉
    的頭像 發表于 12-06 17:06 ?1068次閱讀

    使用卷積神經網絡進行圖像分類的步驟

    (例如,高分辨率、不同光照條件等)。 2. 數據收集 獲取數據 :收集或購買一個包含你想要分類的圖像的數據
    的頭像 發表于 11-15 15:01 ?849次閱讀

    時空引導下的時間序列自監督學習框架

    【導讀】最近,香港科技大學、上海AI Lab等多個組織聯合發布了一篇時間序列監督預訓練的文章,相比原來的TS2Vec等時間序列表示學習工作,核心在于提出了將空間信息融入到預訓練階段,即在預訓練階段
    的頭像 發表于 11-15 11:41 ?768次閱讀
    時空引導下的時間序列自<b class='flag-5'>監督學習</b>框架

    曙光公司成都云中心助力提升監督質效

    數字化時代,用好大數據,推動數字技術深度融入紀檢監察各項業務,是大勢所趨。當前,各地正在探索推進大數據監督,借助海量數據、算力、算法,不斷延伸監督
    的頭像 發表于 11-05 10:05 ?527次閱讀

    屏蔽氧銅網線的作用是什么

    屏蔽氧銅網線在網絡和通信領域具有重要的作用,以下是其具體作用的詳細闡述: 一、提高數據傳輸質量和速度 六屏蔽氧銅網線采用優質的
    的頭像 發表于 10-29 10:42 ?795次閱讀

    【「時間序列與機器學習」閱讀體驗】全書概覽與時間序列概述

    。 ●第5章“時間序列的相似度與”:介紹時間序列的相似性度量方法,如歐氏距離、動態時間規整算法等,用于衡量兩個或多個時間序列在形狀和模式上的相似程度;算法,如K-Means、D
    發表于 08-07 23:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    收集海量的文本數據作為訓練材料。這些數據不僅包括語法結構的學習,還包括對語言的深層次理解,如文化背景、語境含義和情感色彩等。 自監督學習
    發表于 08-02 11:03

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    章節最后總結了機器學習的分類:有監督學習監督學習、半監督學習、自監督學習和強化
    發表于 07-25 14:33