女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

圖解 72 個機器學習基礎知識點

Dbwd_Imgtec ? 來源:未知 ? 2023-04-10 12:50 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

來源:尤而小屋、數據派THU


圖解機器學習算法系列以圖解的生動方式,闡述機器學習核心知識 & 重要模型,并通過代碼講通應用細節。


1. 機器學習概述

1)什么是機器學習

人工智能(Artificial intelligence)是研究、開發用于模擬、延伸和擴展人的智能的理論、方法、技術及應用系統的一門新的技術科學。它是一個籠統而寬泛的概念,人工智能的最終目標是使計算機能夠模擬人的思維方式和行為。 大概在上世紀50年代,人工智能開始興起,但是受限于數據和硬件設備等限制,當時發展緩慢。 機器學習(Machine learning)是人工智能的子集,是實現人工智能的一種途徑,但并不是唯一的途徑。它是一門專門研究計算機怎樣模擬或實現人類的學習行為,以獲取新的知識或技能,重新組織已有的知識結構使之不斷改善自身的性能的學科。大概在上世紀80年代開始蓬勃發展,誕生了一大批數學統計相關的機器學習模型。 深度學習(Deep learning)是機器學習的子集,靈感來自人腦,由人工神經網絡(ANN)組成,它模仿人腦中存在的相似結構。在深度學習中,學習是通過相互關聯的「神經元」的一個深層的、多層的「網絡」來進行的。「深度」一詞通常指的是神經網絡中隱藏層的數量。大概在2012年以后爆炸式增長,廣泛應用在很多的場景中。 讓我們看看國外知名學者對機器學習的定義: 0f810e2c-d75a-11ed-bfe3-dac502259ad0.png ?機器學習研究的是計算機怎樣模擬人類的學習行為,以獲取新的知識或技能,并重新組織已有的知識結構,使之不斷改善自身。 從實踐的意義上來說,機器學習是在大數據的支撐下,通過各種算法讓機器對數據進行深層次的統計分析以進行「自學」,使得人工智能系統獲得了歸納推理和決策能力。 0f981220-d75a-11ed-bfe3-dac502259ad0.png ?通過經典的垃圾郵件過濾應用,我們再來理解下機器學習的原理,以及定義中的T、E、P分別指代什么:


2)機器學習三要素

機器學習三要素包括數據、模型、算法。這三要素之間的關系,可以用下面這幅圖來表示: 0fd3fb46-d75a-11ed-bfe3-dac502259ad0.png ?

(1)數據

數據驅動:數據驅動指的是我們基于客觀的量化數據,通過主動數據的采集分析以支持決策。與之相對的是經驗驅動,比如我們常說的「拍腦袋」。

0febcc62-d75a-11ed-bfe3-dac502259ad0.png

(2)模型&算法

模型:AI數據驅動的范疇內,模型指的是基于數據X做決策Y的假設函數,可以有不同的形態,計算型和規則型等。

算法指學習模型的具體計算方法。統計學習基于訓練數據集,根據學習策略,從假設空間中選擇最優模型,最后需要考慮用什么樣的計算方法求解最優模型。通常是一個最優化的問題。


3)機器學習發展歷程

人工智能一詞最早出現于1956年,用于探索一些問題的有效解決方案。1960年,美國國防部借助「神經網絡」這一概念,訓練計算機模仿人類的推理過程。 2010年之前,谷歌、微軟等科技巨頭改進了機器學習算法,將查詢的準確度提升到了新的高度。而后,隨著數據量的增加、先進的算法、計算和存儲容量的提高,機器學習得到了更進一步的發展。


4)機器學習核心技術

分類:應用以分類數據進行模型訓練,根據模型對新樣本進行精準分類與預測。

聚類:從海量數據中識別數據的相似性與差異性,并按照最大共同點聚合為多個類別。

異常檢測:對數據點的分布規律進行分析,識別與正常數據及差異較大的離群點。

回歸:根據對已知屬性值數據的訓練,為模型尋找最佳擬合參數,基于模型預測新樣本的輸出值。


5)機器學習基本流程

機器學習工作流(WorkFlow)包含數據預處理(Processing)、模型學習(Learning)、模型評估(Evaluation)、新樣本預測(Prediction)幾個步驟。

1019c946-d75a-11ed-bfe3-dac502259ad0.png

數據預處理:輸入(未處理的數據 + 標簽)→處理過程(特征處理+幅度縮放、特征選擇、維度約減、采樣)→輸出(測試集 + 訓練集)。模型學習:模型選擇、交叉驗證、結果評估、超參選擇。模型評估:了解模型對于數據集測試的得分。新樣本預測:預測測試集。

6)機器學習應用場景

作為一套數據驅動的方法,機器學習已廣泛應用于數據挖掘、計算機視覺、自然語言處理、生物特征識別、搜索引擎、醫學診斷、檢測信用卡欺詐、證券市場分析、DNA序列測序、語音和手寫識別和機器人等領域。

智能醫療:智能假肢、外骨骼、醫療保健機器人、手術機器人、智能健康管理等。人臉識別:門禁系統、考勤系統、人臉識別防盜門、電子護照及身份證,還可以利用人臉識別系統和網絡,在全國范圍內搜捕逃犯。機器人的控制領域:工業機器人機械臂、多足機器人、掃地機器人、無人機等。


2. 機器學習基本名詞

監督學習(Supervised Learning):訓練集有標記信息,學習方式有分類和回歸。

無監督學習(Unsupervised Learning):訓練集沒有標記信息,學習方式有聚類和降維。

強化學習(Reinforcement Learning):有延遲和稀疏的反饋標簽的學習方式。

10584ffe-d75a-11ed-bfe3-dac502259ad0.png

示例/樣本:上面一條數據集中的一條數據。

屬性/特征:「色澤」「根蒂」等。

屬性空間/樣本空間/輸入空間X:由全部屬性張成的空間。

特征向量:空間中每個點對應的一個坐標向量。

標記:關于示例結果的信息,如((色澤=青綠,根蒂=蜷縮,敲聲=濁響),好瓜),其中「好瓜」稱為標記。

分類:若要預測的是離散值,如「好瓜」,「壞瓜」,此類學習任務稱為分類。

假設:學得模型對應了關于數據的某種潛在規律。

真相:潛在規律自身。

學習過程:是為了找出或逼近真相。

泛化能力:學得模型適用于新樣本的能力。一般來說,訓練樣本越大,越有可能通過學習來獲得具有強泛化能力的模型。


3. 機器學習算法分類

1)機器學習算法依托的問題場景

機器學習在近30多年已發展為一門多領域交叉學科,涉及概率論、統計學、逼近論、凸分析、計算復雜性理論等多門學科。機器學習理論主要是設計和分析一些讓計算機可以自動「學習」的算法。 機器學習算法從數據中自動分析獲得規律,并利用規律對未知數據進行預測。

機器學習理論關注可以實現的、行之有效的學習算法。很多推論問題屬于無程序可循難度,所以部分的機器學習研究是開發容易處理的近似算法。

106b0658-d75a-11ed-bfe3-dac502259ad0.png

機器學習最主要的類別有:監督學習、無監督學習和強化學習。

1078a420-d75a-11ed-bfe3-dac502259ad0.png

監督學習:從給定的訓練數據集中學習出一個函數,當新的數據到來時,可以根據這個函數預測結果。監督學習的訓練集要求是包括輸入和輸出,也可以說是特征和目標。訓練集中的目標是由人標注的。常見的監督學習算法包括回歸分析和統計分類。

更多監督學習的算法模型總結,可以查看ShowMeAI的文章 AI知識技能速查 | 機器學習-監督學習(公眾號不能跳轉,本文鏈接見文末)。

無監督學習:與監督學習相比,訓練集沒有人為標注的結果。常見的無監督學習算法有生成對抗網絡(GAN)、聚類。

更多無監督學習的算法模型總結可以查看ShowMeAI的文章 AI知識技能速查 | 機器學習-無監督學習。

強化學習:通過觀察來學習做成如何的動作。每個動作都會對環境有所影響,學習對象根據觀察到的周圍環境的反饋來做出判斷。

2)分類問題

分類問題是機器學習非常重要的一個組成部分。它的目標是根據已知樣本的某些特征,判斷一個新的樣本屬于哪種已知的樣本類。分類問題可以細分如下:

二分類問題:表示分類任務中有兩個類別新的樣本屬于哪種已知的樣本類。多類分類(Multiclass classification)問題:表示分類任務中有多類別。多標簽分類(Multilabel classification)問題:給每個樣本一系列的目標標簽。

了解更多機器學習分類算法:KNN算法、邏輯回歸算法、樸素貝葉斯算法、決策樹模型、隨機森林分類模型、GBDT模型、XGBoost模型、支持向量機模型等。(公眾號不能跳轉,本文鏈接見文末)

3)回歸問題

了解更多機器學習回歸算法:決策樹模型、隨機森林分類模型、GBDT模型、回歸樹模型、支持向量機模型等。

1081841e-d75a-11ed-bfe3-dac502259ad0.png


4)聚類問題

了解更多機器學習聚類算法:聚類算法。

10964804-d75a-11ed-bfe3-dac502259ad0.png


5)降維問題

了解更多機器學習降維算法:PCA降維算法。
10afffd8-d75a-11ed-bfe3-dac502259ad0.png ?

4.機器學習模型評估與選擇

1)機器學習與數據擬合

機器學習最典型的監督學習為分類與回歸問題。分類問題中,我們學習出來一條「決策邊界」完成數據區分;在回歸問題中,我們學習出擬合樣本分布的曲線。

2)訓練集與數據集

我們以房價預估為例,講述一下涉及的概念。

訓練集(Training Set):幫助訓練模型,簡單的說就是通過訓練集的數據讓確定擬合曲線的參數。

測試集Test Set):為了測試已經訓練好的模型的精確度。 當然,test set這并不能保證模型的正確性,只是說相似的數據用此模型會得出相似的結果。因為在訓練模型的時候,參數全是根據現有訓練集里的數據進行修正、擬合,有可能會出現過擬合的情況,即這個參數僅對訓練集里的數據擬合比較準確,這個時候再有一個數據需要利用模型預測結果,準確率可能就會很差。

3)經驗誤差

在訓練集的數據上進行學習。模型在訓練集上的誤差稱為「經驗誤差」(Empirical Error)。但是經驗誤差并不是越小越好,因為我們希望在新的沒有見過的數據上,也能有好的預估結果。

4)過擬合

過擬合,指的是模型在訓練集上表現的很好,但是在交叉驗證集合測試集上表現一般,也就是說模型對未知樣本的預測表現一般,泛化(Generalization)能力較差。

10bbf784-d75a-11ed-bfe3-dac502259ad0.png

如何防止過擬合呢?一般的方法有Early Stopping、數據集擴增(Data Augmentation)、正則化、Dropout等。

正則化:指的是在目標函數后面添加一個正則化項,一般有L1正則化與L2正則化。L1正則是基于L1范數,即在目標函數后面加上參數的L1范數和項,即參數絕對值和與參數的積項。

數據集擴增:即需要得到更多的符合要求的數據,即和已有的數據是獨立同分布的,或者近似獨立同分布的。一般方法有:從數據源頭采集更多數據、復制原有數據并加上隨機噪聲、重采樣、根據當前數據集估計數據分布參數,使用該分布產生更多數據等。

DropOut:通過修改神經網絡本身結構來實現的。


5)偏差

偏差(Bias),它通常指的是模型擬合的偏差程度。給定無數套訓練集而期望擬合出來的模型就是平均模型。偏差就是真實模型和平均模型的差異。

簡單模型是一組直線,平均之后得到的平均模型是一條直的虛線,與真實模型曲線的差別較大(灰色陰影部分較大)。因此,簡單模型通常高偏差。

10d95234-d75a-11ed-bfe3-dac502259ad0.png

復雜模型是一組起伏很大波浪線,平均之后最大值和最小組都會相互抵消,和真實模型的曲線差別較小,因此復雜模型通常低偏差(見黃色曲線和綠色虛線幾乎重合)。

10ee4edc-d75a-11ed-bfe3-dac502259ad0.png


6)方差

方差(Variance),它通常指的是模型的平穩程度(簡單程度)。簡單模型的對應的函數如出一轍,都是水平直線,而且平均模型的函數也是一條水平直線,因此簡單模型的方差很小,并且對數據的變動不敏感。

110b5a68-d75a-11ed-bfe3-dac502259ad0.png

復雜模型的對應的函數千奇百怪,毫無任何規則,但平均模型的函數也是一條平滑的曲線,因此復雜模型的方差很大,并且對數據的變動很敏感。


7)偏差與方差的平衡1126f278-d75a-11ed-bfe3-dac502259ad0.png


8)性能度量指標

性能度量是衡量模型泛化能力的數值評價標準,反映了當前問題(任務需求)。使用不同的性能度量可能會導致不同的評判結果。更詳細的內容可見 模型評估方法與準則(鏈接見文末)。

(1)回歸問題

關于模型「好壞」的判斷,不僅取決于算法和數據,還取決于當前任務需求。回歸問題常用的性能度量指標有:平均絕對誤差、均方誤差、均方根誤差、R平方等。

1139df32-d75a-11ed-bfe3-dac502259ad0.png

平均絕對誤差(Mean Absolute Error,MAE),又叫平均絕對離差,是所有標簽值與回歸模型預測值的偏差的絕對值的平均。

平均絕對百分誤差(Mean Absolute Percentage Error,MAPE)是對MAE的一種改進,考慮了絕對誤差相對真實值的比例。

均方誤差(Mean Square Error,MSE)相對于平均絕對誤差而言,均方誤差求的是所有標簽值與回歸模型預測值的偏差的平方的平均。

均方根誤差(Root-Mean-Square Error,RMSE),也稱標準誤差,是在均方誤差的基礎上進行開方運算。RMSE會被用來衡量觀測值同真值之間的偏差。

R平方,決定系數,反映因變量的全部變異能通過目前的回歸模型被模型中的自變量解釋的比例。比例越接近于1,表示當前的回歸模型對數據的解釋越好,越能精確描述數據的真實分布。

(2)分類問題

分類問題常用的性能度量指標包括錯誤率(Error Rate)、精確率(Accuracy)、查準率(Precision)、查全率(Recall)、F1、ROC曲線、AUC曲線和R平方等。更詳細的內容可見 模型評估方法與準則(鏈接見文末)。 1147540a-d75a-11ed-bfe3-dac502259ad0.png ?

錯誤率:分類錯誤的樣本數占樣本總數的比例。

精確率:分類正確的樣本數占樣本總數的比例。

查準率(也稱準確率),即在檢索后返回的結果中,真正正確的個數占你認為是正確的結果的比例。

查全率(也稱召回率),即在檢索結果中真正正確的個數,占整個數據集(檢索到的和未檢索到的)中真正正確個數的比例。

F1是一個綜合考慮查準率與查全率的度量,其基于查準率與查全率的調和平均定義:即:F1度量的一般形式-Fβ,能讓我們表達出對查準率、查全率的不同偏好。 1155e768-d75a-11ed-bfe3-dac502259ad0.png ?ROC曲線(Receiver Operating Characteristic Curve)全稱是「受試者工作特性曲線」。綜合考慮了概率預測排序的質量,體現了學習器在不同任務下的「期望泛化性能」的好壞。ROC曲線的縱軸是「真正例率」(TPR),橫軸是「假正例率」(FPR)。 AUC(Area Under ROC Curve)是ROC曲線下面積,代表了樣本預測的排序質量。
從一個比較高的角度來認識AUC:仍然以異常用戶的識別為例,高的AUC值意味著,模型在能夠盡可能多地識別異常用戶的情況下,仍然對正常用戶有著一個較低的誤判率(不會因為為了識別異常用戶,而將大量的正常用戶給誤判為異常。

9)評估方法

我們手上沒有未知的樣本,如何可靠地評估?關鍵是要獲得可靠的「測試集數據」(Test Set),即測試集(用于評估)應該與訓練集(用于模型學習)「互斥」。 116102b0-d75a-11ed-bfe3-dac502259ad0.png ?常見的評估方法有:留出法(Hold-out)、交叉驗證法( Cross Validation)、自助法(Bootstrap)。更詳細的內容可見 模型評估方法與準則(鏈接見文末)。 留出法(Hold-out)是機器學習中最常見的評估方法之一,它會從訓練數據中保留出驗證樣本集,這部分數據不用于訓練,而用于模型評估。 11776596-d75a-11ed-bfe3-dac502259ad0.png ?機器學習中,另外一種比較常見的評估方法是交叉驗證法(Cross Validation)。k 折交叉驗證對 k 個不同分組訓練的結果進行平均來減少方差,因此模型的性能對數據的劃分就不那么敏感,對數據的使用也會更充分,模型評估結果更加穩定。 1183a626-d75a-11ed-bfe3-dac502259ad0.png ?自助法(Bootstrap)是一種用小樣本估計總體值的一種非參數方法,在進化和生態學研究中應用十分廣泛。 Bootstrap通過有放回抽樣生成大量的偽樣本,通過對偽樣本進行計算,獲得統計量的分布,從而估計數據的整體分布。 11920586-d75a-11ed-bfe3-dac502259ad0.png


10)模型調優與選擇準則

我們希望找到對當前問題表達能力好,且模型復雜度較低的模型:
  • 表達力好的模型,可以較好地對訓練數據中的規律和模式進行學習;

  • 復雜度低的模型,方差較小,不容易過擬合,有較好的泛化表達。

11a4117c-d75a-11ed-bfe3-dac502259ad0.png


11)如何選擇最優的模型

(1)驗證集評估選擇

  • 切分數據為訓練集和驗證集。

  • 對于準備好的候選超參數,在訓練集上進行模型,在驗證集上評估。

(2)網格搜索/隨機搜索交叉驗證

  • 通過網格搜索/隨機搜索產出候選的超參數組。

  • 對參數組的每一組超參數,使用交叉驗證評估效果。

  • 選出效果最好的超參數。

(3)貝葉斯優化

  • 基于貝葉斯優化的超參數調優。


聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • imagination
    +關注

    關注

    1

    文章

    599

    瀏覽量

    62204

原文標題:圖解 72 個機器學習基礎知識點

文章出處:【微信號:Imgtec,微信公眾號:Imagination Tech】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    圖解單片機功能與應用(完整版)

    基礎知識的介紹出發,圖文并茂,直觀、系統地介紹了單片機的內部結構、工作原理和應用技巧。全書分為10章,內容包括51單片機編程資源圖解、51單片機指令系統圖解、匯編語言程序設計圖解、輸
    發表于 06-16 16:52

    漫畫圖解 電感器 抗干擾元器件指南(全彩PDF版)

    漫畫圖解電感基礎知識(高清PDF) 內容:很形象的漫畫和語言圖解關于電感器的入門基礎知識,讓電子初學者也能輕松的看懂電子電路。 純分享貼,有需要可以直接下載附件獲取完整資料!
    發表于 05-13 15:49

    電機選型計算公式與知識點匯總

    純分享帖,需要者可點擊附件獲取完整資料~~~*附件:電機選型計算公式與知識點匯總.pdf 【免責聲明】內容轉自今日電機,因轉載眾多,無法確認真正原始作者,故僅標明轉載來源。版權歸原出處所有,純分享帖,侵權請聯系刪除內容以保證您的權益。
    發表于 04-29 16:10

    最易讀懂的理工科基礎叢書——圖解電機基礎知識入門

    本書深人淺出地介紹了電動機的基礎知識、應用和發展,其內容包括電動機的用途、電動機的基礎知識及應用、電流和磁場的關系、直流電動機的結構和作用、交流電動機的結構和作用、特殊電動機的結構和作用
    發表于 04-07 18:28

    電氣工程師必知必會的100電?知識點分享

    電??程師也都是從電?學徒??步?步積累成長起來的。積跬步?千?,匯細流成江海!朋友們,現在讓我們??捷徑,花半個?時的時間來積累100必知必會的電?知識點吧!
    的頭像 發表于 03-14 11:05 ?952次閱讀

    華邦電子安全閃存關鍵知識點

    黑客攻擊?高溫考驗?駕駛安全?通通沒在怕的!1月15日,華邦電子舉辦了“安全閃存強化車用電子安全性”為主題的線上研討會。為了讓沒能參加這場線上研討會的邦友們也可以清晰 Get 安全閃存關鍵知識點,邦
    的頭像 發表于 02-12 18:15 ?744次閱讀

    Aigtek功率放大器應用:電感線圈的知識點分享

    電磁驅動是功率放大器的一大基礎應用領域,其中我們最常見的就是用功放來驅動電感線圈,那么關于電感線圈的這10大知識點你都知道嗎?今天Aigtek安泰電子來給大家介紹一下電感線圈的基礎知識
    的頭像 發表于 01-07 15:43 ?576次閱讀
    Aigtek功率放大器應用:電感線圈的<b class='flag-5'>知識點</b>分享

    EMC基礎知識-華為

    EMC基礎知識-華為
    發表于 01-06 14:09 ?4次下載

    傳統機器學習方法和應用指導

    在上一篇文章中,我們介紹了機器學習的關鍵概念術語。在本文中,我們會介紹傳統機器學習基礎知識和多種算法特征,供各位老師選擇。 01 傳統
    的頭像 發表于 12-30 09:16 ?1173次閱讀
    傳統<b class='flag-5'>機器</b><b class='flag-5'>學習</b>方法和應用指導

    硬件工程師面試基礎知識點

    皮爾斯振蕩器(Pierce oscillator) 上圖中,U1為增益很大的反相放大器,CL1、CL2為匹配電容,是電容三式電路的分壓電容,接地點就是分壓。以接地點即分壓為參考點,輸入和輸出是反相的,但從并聯諧振回路即石英
    的頭像 發表于 11-21 11:04 ?768次閱讀
    硬件工程師面試<b class='flag-5'>基礎知識點</b>

    接口測試理論、疑問收錄與擴展相關知識點

    本文章使用王者榮耀游戲接口、企業微信接口的展示結合理論知識,講解什么是接口測試、接口測試理論、疑問收錄與擴展相關知識點知識學院,快來一起看看吧~
    的頭像 發表于 11-15 09:12 ?735次閱讀
    接口測試理論、疑問收錄與擴展相關<b class='flag-5'>知識點</b>

    品質管理基礎知識

    品質管理基礎知識
    的頭像 發表于 11-01 11:08 ?656次閱讀
    品質管理<b class='flag-5'>基礎知識</b>

    負載開關基礎知識

    電子發燒友網站提供《負載開關基礎知識.pdf》資料免費下載
    發表于 10-08 09:56 ?2次下載
    負載開關<b class='flag-5'>基礎知識</b>

    【「時間序列與機器學習」閱讀體驗】+ 簡單建議

    這本書以其系統性的框架和深入淺出的講解,為讀者繪制了一幅時間序列分析與機器學習融合應用的宏偉藍圖。作者不僅扎實地構建了時間序列分析的基礎知識,更巧妙地展示了機器
    發表于 08-12 11:21

    【《大語言模型應用指南》閱讀體驗】+ 基礎篇

    今天開始學習《大語言模型應用指南》第一篇——基礎篇,對于人工智能相關專業技術人員應該可以輕松加愉快的完成此篇閱讀,但對于我還是有許多的知識點、專業術語比較陌生,需要網上搜索學習更多的資料才能理解書中
    發表于 07-25 14:33