女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

強化學習正在推進AI應用

h1654155275.5753 ? 來源:fysydfdsfw ? 作者:fysydfdsfw ? 2022-12-30 09:40 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

就在幾年前,能夠感知周圍環境、識別重要細節——并忽略其余部分——然后利用這些細節來完成任務的技術應用似乎還只是科幻小說中的內容。

然而,現在有幾種技術已經成為我們日常生活中不可或缺的一部分:理解和響應人類語言的許多細微差別的智能語音助手,使用成像比人類醫生更準確地預測癌癥的醫學應用程序,以及自動駕駛汽車導航動態環境。它們只是成為頭條新聞的一些技術。

強化學習是機器學習的三個分支之一,正在推動其中的許多創新。它使計算機能夠識別其環境的重要特征以做出最佳決策——這是一種直到最近才出現的技能。對強化學習 (RL)、人工神經網絡 (ANN) 和深度學習 (DL) 的更詳細研究揭示了旨在在人類層面上實現 AI人工智能應用的新潛力以及仍然存在的挑戰。

機器學習方法

機器學習 (ML) 是 AI 的一個子集,它使計算機能夠從示例和經驗中學習。在 ML 的三個分支中,監督學習和無監督學習可能是最著名的,用于解決定義明確且相對可預測的問題。

監督學習

監督學習 (SL) 方法用于解決帶有注釋輸入數據的問題。這些算法嘗試從這些已知示例中學習模式和關聯,進而處理未知示例。一個典型的例子是圖像識別,其中使用手動注釋的圖像來訓練模型以正確分類新捕獲的圖像。

無監督學習

無監督學習 (UL) 方法用于推斷未注釋數據記錄中的隱藏結構或關系。這些方法可以在沒有太多準備的情況下應用,但通常更具描述性和探索性。它們通常用于為監督方法的使用做準備。一個常見的例子是在交易數據中識別不同的客戶群體,這可以在以后促進各種有針對性的營銷活動。

強化學習

強化學習 (RL) 是 ML 的第三個分支,它使一些最復雜和最人性化的應用程序成為當今的頭條新聞。RL 是一種機器學習,其中獎勵和懲罰評估個人行為和可以計劃未來行為的輸入變量。RL 不是明確地告訴如何解決問題,而是基于最大化獎勵和最小化懲罰。RL 不局限于特定的問題或環境,而是專注于根據來自動態環境的復雜輸入做出最佳決策的機器。

RL 的基本思想是以類似于人類或任何足夠聰明的生物如何學習的方式對學習進行建模:通過嘗試實現與獎勵相關的特定目標,使用所提供的技能和工具,但沒有明確的關于如何解決問題的說明。一個簡單的例子是一個機器人,它可以張開和合上手來將球放入盒子中。機器人必須學會它可以抓住球,將它的手臂移動到正確的位置,然后讓它落下。這通常涉及多次迭代和重新開始實驗。機器人只接收關于其行為是否成功的反饋,并嘗試調整其動作直到達到目標。

這與 SL 形成鮮明對比,在 SL 中,一個好的結果需要很多例子——比如大量不同的帶注釋的貓圖像集合——來描述問題的所有維度。這是算法準確了解哪些特征(例如形狀或顏色)與正確決策相關的唯一方法。對于機器人的例子,相當于準確而仔細地描述過程的每個步驟——比如將手移動到哪里,施加多大的壓力等。對于這個變量很少的例子,也許可以實現這一點詳細程度,但如果變量發生變化,則需要重新學習。給定一個更大的球,機器人會不知所措。

在實際應用中,輸入、輸出和訓練數據的平衡變得異常復雜。例如,自動駕駛汽車幾乎實時處理大量傳感器數據。忽視環境中的細微差別可能會產生重大后果,并且關系重大。這就是為什么強化學習是在禁止或不可能創建訓練示例或指令的環境中的首選工具。

強化學習的子類型

與 ML 的其他分支一樣,RL 具有共同推動創新的子流派。特別是,特征學習 (FL) 使系統能夠識別輸入數據的不同細節。人工神經網絡 (ANN) 和深度學習 (DL) 為高級解析、處理和學習提供了所需的框架,并支持深度強化學習 (DRL) 的子領域。

特征學習

特征學習(也稱為表示學習)是一種 ML 技術,它使機器能夠識別通常無法在算法中表示的輸入數據的特征和獨立組件。例如,在自動駕駛汽車中,周圍環境由多個攝像頭、雷達和其他傳感器感知。這意味著有很多信息可用于決定下一步行動,但只有一小部分是相關的。例如,天空的顏色通常是無關緊要的,而交通燈的顏色卻高度相關。一只鳥飛過的速度遠不如行人接近路邊的速度重要。

為什么表示這種級別的輸入函數的能力如此重要?用于訓練的數據集對模型的準確性起著關鍵作用。訓練數據越多越好。特別是,數據集中包含的具有清晰和可識別特征的示例越多樣化越好。換句話說,輸入數據的獨特和獨立特征幫助計算機彌合了它們已經學過的知識和需要學習的知識之間的差距,以確保無論上下文如何,都能確保 100% 的準確性和一致性。識別獨特的特征還有助于識別任何可以忽略的特征和異常值,這反過來又有助于隨著時間的推移顯著減少數據量。

人工神經網絡和深度學習

這些高度可變的應用程序需要一個健壯且可擴展的框架。一種受到廣泛關注的方法,特別是在監督學習中,是深度學習。結合強化學習的原理,我們稱之為深度強化學習。

人工神經網絡 (ANN) 的基本思想可以追溯到 1960 年代,大致基于人腦的網絡狀神經結構。人工神經網絡包含一個巨大的人工神經元網絡,稱為感知器,感知器接收輸入信號,評估各種輸入特征,然后通過網絡中繼信號,直到達到輸出信號。

該網絡由神經元的數量、連接的強度和數量以及神經元的激活閾值來定義。這是輸入信號必須傳遞的強度。人工神經網絡具有包含多個輸入和輸出級別的可擴展結構,使用中間的隱藏級別將輸入轉換為輸出級別可以使用的內容。專業術語深度學習源自具有許多連續神經元層的網絡,因此是深度的。

人工神經網絡特別適合從復雜的輸入數據和動態環境中生成最佳答案,因為它們通過反向傳播進行學習。對于任何給定的訓練信號——例如,描述圖像坐標和顏色值的向量——網絡會檢查生成的輸出是否正確,然后稍微調整網絡中的權重以獲得所需的結果。經過足夠多的訓練迭代后,網絡變得穩定,現在可以識別以前未知的情況。

人工神經網絡、深度學習和強化學習的局限性

ANN 和 DL 具有巨大的潛力,因為它們能夠表示特征并在動態環境中做出最佳響應。然而,它們的能力帶來了更多挑戰,并揭示了在模仿人類智能的某些方面仍存在的一些差距。

需要數百萬個節點、連接和訓練迭代

建模相關問題需要 ANN 具有大量節點和連接,以處理需要分析和存儲的數百萬個不同變量。現代計算機直到最近才使這成為可能。同樣,所需的訓練循環次數可以達到數十億,并隨著環境變量的數量呈指數增長。強化學習的第一個重大突破是在圍棋等游戲中取得的,這并非巧合,名為 AlphaGo 的人工智能現在設法擊敗了最好的人類棋手:游戲規則——例如可能的行動和結果——以及由于目標明確,讓 AI 與自己對弈,很容易快速執行許多模擬游戲。下一個進化步驟是玩電子游戲,例如超級馬里奧?或星際爭霸,其中行動和結果之間的關系更為復雜。盡管如此,環境仍然有限,許多迭代的快速模擬也是可能的。

然而,對于像自動駕駛這樣的現實問題,情況就不同了。安全到達目的地這個首要任務還是比較容易制定的。然而,環境明顯更加多樣化,模擬需要更加復雜才能使它們對了解實際問題有用。最終,模擬仍然需要用實際駕駛來代替,以考慮其他無法建模的因素,并且在實現人類績效之前,將繼續需要密切監控。例如,自動駕駛汽車制造商 Waymo 在 2020 年的一份新聞稿中表示,其汽車需要 1400 年的駕駛經驗才能與人類司機競爭。這是令人驚訝的,因為一個人只需練習幾周就可以安全地駕駛汽車。為什么不是

與抽象和推理相關的能力

人們可以快速學會玩游戲或開車,因為人腦可以通過抽象和推理來學習。通過這種類型的學習,例如,由于人類天生的空間意識,駕駛員可以從另一個角度或在另一個環境中想象交通燈的樣子。人類還可以在道路上發現顏色與之前看到的不同的汽車,并根據觀察和經驗得出結論。

此類功能最近才在 ANN 中得到探索。盡管網絡的不同層級可以捕獲輸入的不同方面,例如形狀和顏色,但網絡只能處理明確包含在訓練數據中的特征。如果 AI 在白天接受訓練,則該模型不太可能在晚上處理其他情況。即使使用 DL,也必須在訓練數據中考慮到這種差異,并且與訓練數據的可接受偏差程度非常小。

目前正在探索通過抽象和推理進行學習的各種技術,但它們揭示了更多的挑戰和局限性。人工神經網絡失敗的一個常見例子是計算機視覺系統,該系統以極高的可靠性檢測到西伯利亞哈士奇犬——比其他犬種更可靠。仔細檢查后發現,網絡將注意力集中在幾乎所有哈士奇圖像中出現的雪上,而忽略了狗本身。換句話說,該模型沒有看到地面的顏色——對人類來說是一個微不足道的細節——并不是狗的固有屬性。

這個例子看起來平庸和人為,但現實世界的后果可能是可怕的。讓我們再看看自動駕駛汽車的例子,事故很少見,但可以追溯到模棱兩可的情況。2018 年一名行人在四車道高速公路上推著自行車意外死亡就是一個例子,這種情況對于人類司機來說很容易處理,但由于 ANN 處理不當而導致碰撞和死亡。在許多小時的訓練中沒有觀察到這種情況,并且沒有足夠的故障轉移——“如果你不知道該怎么做,就停下來!”——已實施。結果,該系統似乎做出了不合理的反應,因為它缺乏人類智能的基本基石。

更糟糕的是,人工智能中的這些盲點可能會被那些企圖傷害他人的人利用。例如,如果在訓練過程中插入經過處理的圖像,圖像分類可能會完全被誤導。盡管圖像中的微小變化人類無法察覺,但相同的變化在 ANN 中可能會有不同的感知和解釋。在一個示例中,帶有不起眼貼紙的停車標志被錯誤地識別為其他標志。如果這個經過訓練的模型用于實際的汽車,這可能會導致事故。另一方面,人類司機當然仍然可以毫無問題地識別停車標志。

克服障礙和限制

這些以及其他障礙和限制引發了如何向前推進并使 ANN 能夠進一步填補做出最佳決策方面的差距的問題。簡單的答案是更多的培訓。如果訓練數據的可變性和質量足夠好,它可以將錯誤率降低到模型精度可以接受的程度。已經表明,自動駕駛汽車發生事故的頻率已經低于人類駕駛員,但“異常事故”的可能性阻礙了更廣泛的接受。

另一種系統方法是明確編碼所需的背景知識,并使其在 ML 過程中可用。例如,Cycorp 創建的知識庫已經存在多年,包含數百萬個概念和關系,包括前面提到的停車標志的含義。目的是以機器可讀的形式手動編碼人類知識,以便 AI 可以依靠訓練數據并得出結論并評估未知情況,至少在某種程度上,以類似于人類直覺的方式。

結論

能夠感知周圍環境并識別重要細節并做出最佳決策的技術不再是科幻小說。強化學習是機器學習的三個分支之一,它提供了可以處理高維變量和動態環境的工具和框架。然而,這些解決方案也帶來了新的挑戰,特別是需要廣泛的神經網絡、全面的訓練,以及通過抽象和推理來模仿人類的學習能力以適應新的情況。盡管人工智能能夠取得令人矚目的成就,并且在許多現實世界的應用中變得越來越不可或缺,但它距離實現人類水平的學習能力還有很長的路要走。體驗中間步驟或許比科幻小說本身更有趣。

審核編輯:湯梓紅

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • AI
    AI
    +關注

    關注

    88

    文章

    35164

    瀏覽量

    280053
  • 機器學習
    +關注

    關注

    66

    文章

    8503

    瀏覽量

    134635
  • 強化學習
    +關注

    關注

    4

    文章

    269

    瀏覽量

    11604
收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    NVIDIA Isaac Lab可用環境與強化學習腳本使用指南

    Lab 是一個適用于機器人學習的開源模塊化框架,其模塊化高保真仿真適用于各種訓練環境,Isaac Lab 同時支持模仿學習(模仿人類)和強化學習(在嘗試和錯誤中進行學習),為所有機器
    的頭像 發表于 07-14 15:29 ?565次閱讀
    NVIDIA Isaac Lab可用環境與<b class='flag-5'>強化學習</b>腳本使用指南

    任正非說 AI已經確定是第四次工業革命 那么如何從容地加入進來呢?

    的基本理論。了解監督學習、無監督學習強化學習的基本原理。例如,在監督學習中,理解如何通過標注數據來訓練模型進行分類或回歸任務,像通過大量的貓和狗的圖片標注數據來訓練一個圖像分類模型,
    發表于 07-08 17:44

    【「零基礎開發AI Agent」閱讀體驗】+ 入門篇學習

    很高興又有機會學習ai技術,這次試讀的是「零基礎開發AI Agent」,作者葉濤、管鍇、張心雨。 大模型的普及是近三年來的一件大事,萬物皆可大模型已成為趨勢。作為大模型開發應用中重要組成部分,提示詞
    發表于 05-02 09:26

    18個常用的強化學習算法整理:從基礎方法到高級模型的理論技術與代碼實現

    本來轉自:DeepHubIMBA本文系統講解從基本強化學習方法到高級技術(如PPO、A3C、PlaNet等)的實現原理與編碼過程,旨在通過理論結合代碼的方式,構建對強化學習算法的全面理解。為確保內容
    的頭像 發表于 04-23 13:22 ?420次閱讀
    18個常用的<b class='flag-5'>強化學習</b>算法整理:從基礎方法到高級模型的理論技術與代碼實現

    【「零基礎開發AI Agent」閱讀體驗】+初品Agent

    。 Agent在發展過程中,經歷了5個階段,即: 1)符號Agent階段 2)反應式Agent階段 3)基于強化學習的Agent階段 4)帶遷移學習和元學習的Agent階段 5)基于大模型的Agent階段 關于Agent的
    發表于 04-22 11:51

    AI Agent 應用與項目實戰》----- 學習如何開發視頻應用

    再次感謝發燒友提供的閱讀體驗活動。本期跟隨《AI Agent 應用與項目實戰》這本書學習如何構建開發一個視頻應用。AI Agent是一種智能應用,能夠根據用戶需求和環境變化做出相應響應。通常基于深度
    發表于 03-05 19:52

    FPGA+AI王炸組合如何重塑未來世界:看看DeepSeek東方神秘力量如何預測......

    強化學習架構正在改寫芯片設計規則——通過自主進化算法,FPGA布局布線效率提升300%,這或許預示著芯片設計將進入"AI自編程"時代。在這場智能芯片革命中,中國企業
    發表于 03-03 11:21

    詳解RAD端到端強化學習后訓練范式

    受限于算力和數據,大語言模型預訓練的 scalinglaw 已經趨近于極限。DeepSeekR1/OpenAl01通過強化學習后訓練涌現了強大的推理能力,掀起新一輪技術革新。
    的頭像 發表于 02-25 14:06 ?602次閱讀
    詳解RAD端到端<b class='flag-5'>強化學習</b>后訓練范式

    名單公布!【書籍評測活動NO.55】AI Agent應用與項目實戰

    。為了更深入理解 AI Agent 的技術基礎,以下是其關鍵技術架構及應用場景的詳細解析: (1)自主性:AI Agent 通過感知外界環境,能夠在沒有人工干預的情況下進行決策。這種特性通常通過強化學習
    發表于 01-13 11:04

    螞蟻集團收購邊塞科技,吳翼出任強化學習實驗室首席科學家

    近日,專注于模型賽道的初創企業邊塞科技宣布被螞蟻集團收購。據悉,此次交易完成后,邊塞科技將保持獨立運營,而原投資人已全部退出。 與此同時,螞蟻集團近期宣布成立強化學習實驗室,旨在推動大模型強化學習
    的頭像 發表于 11-22 11:14 ?1586次閱讀

    NVIDIA AI正加速推進藥物研發

    在當前的醫療健康領域,AI 的重要性愈發凸顯。NVIDIA AI 正加速推進藥物研發,致力于減少藥物的研發時間和成本,使更多的老年患者能夠更快獲得關鍵治療。
    的頭像 發表于 11-19 16:07 ?715次閱讀

    如何使用 PyTorch 進行強化學習

    強化學習(Reinforcement Learning, RL)是一種機器學習方法,它通過與環境的交互來學習如何做出決策,以最大化累積獎勵。PyTorch 是一個流行的開源機器學習庫,
    的頭像 發表于 11-05 17:34 ?1043次閱讀

    AI大模型與深度學習的關系

    AI大模型與深度學習之間存在著密不可分的關系,它們互為促進,相輔相成。以下是對兩者關系的介紹: 一、深度學習AI大模型的基礎 技術支撐 :深度學習
    的頭像 發表于 10-23 15:25 ?2900次閱讀

    AI for Science:人工智能驅動科學創新》第二章AI for Science的技術支撐學習心得

    for Science的技術支撐”的學習心得,可以從以下幾個方面進行歸納和總結: 1. 技術基礎的深入理解 在閱讀第二章的過程中,我對于AI for Science所需的技術基礎有了更加深入的理解。這一章詳細闡述了
    發表于 10-14 09:16

    谷歌AlphaChip強化學習工具發布,聯發科天璣芯片率先采用

    近日,谷歌在芯片設計領域取得了重要突破,詳細介紹了其用于芯片設計布局的強化學習方法,并將該模型命名為“AlphaChip”。據悉,AlphaChip有望顯著加速芯片布局規劃的設計流程,并幫助芯片在性能、功耗和面積方面實現更優表現。
    的頭像 發表于 09-30 16:16 ?705次閱讀