女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

Transformer模型的具體應用

NVIDIA英偉達 ? 來源:NVIDIA英偉達 ? 2024-11-20 09:28 ? 次閱讀

如果想在 AI 領域引領一輪新浪潮,就需要使用到 Transformer。

盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。

在上一篇《什么是 Transformer 模型(一)》中,通過對 Transformer 模型進行的深入剖析,展開了一幅 AI 領域的創新畫卷,本篇文章將聚焦于該模型在現實世界各個領域中的具體應用,以及這些應用如何改變我們的生活和工作方式,展望其在未來人工智能發展中的潛在影響。

讓 Transformer 發揮作用

很快,Transformer 模型就被應用于科學和醫療領域。

倫敦的 DeepMind 使用一種名為 AlphaFold2 的 Transformer 加深了對蛋白質這一生命基礎要素的理解。最近《自然》期刊上的一篇文章對該 Transformer 進行了描述。這種 Transformer 能夠像處理文本字符串一樣處理氨基酸鏈,為描述蛋白質的折疊方式打開了新的思路,這項研究可以加快藥物發現的速度。

阿斯利康和 NVIDIA 共同開發了一個專為藥物發現量身定制的 Transformer MegaMolBART。MegaMolBART 是該制藥公司 MolBART Transformer 的一個版本,使用 NVIDIA Megatron 在一個大型、無標記的化合物數據庫上訓練,以創建大規模 Transformer 模型。

閱讀分子和醫療記錄

阿斯利康分子 AI、發現科學和研發部門負責人 Ola Engkvist 在 2020 年宣布這項工作時表示:“正如 AI 語言模型可以學習句子中單詞之間的關系一樣,我們的目標是使在分子結構數據上訓練而成的神經網絡能夠學習現實世界分子中原子之間的關系?!?/p>

為了從大量臨床數據中提煉洞察,加快醫學研究的速度,佛羅里達大學學術健康中心與 NVIDIA 研究人員聯合創建了 GatorTron 這個 Transformer 模型。

Transformer 增長

在研究過程中,研究人員發現大型 Transformer 性能更好。

慕尼黑工業大學 Rostlab 的研究人員推動著 AI 與生物學交叉領域的前沿研究,他們利用自然語言處理技術來了解蛋白質。該團隊在 18 個月的時間里,從使用具有 9000 萬個參數的 RNN 升級到具有 5.67 億個參數的 Transformer 模型。

Rostlab 研究人員展示了在沒有標記樣本的情況下訓練的語言模型所捕捉到的蛋白質序列信號

OpenAI 實驗室的生成式預訓練 Transformer(GPT)證明了模型的規模越大越好。其最新版本 GPT-3 有 1750 億個參數,而 GPT-2 只有 15 億個。

憑借更多的參數,GPT-3 即使在沒有經過專門訓練的情況下,也能回答用戶的問詢。思科、IBM、Salesforce 等公司已經在使用 GPT-3。

巨型 Transformer 的故事

NVIDIA 和微軟在 2022 年 11 月發布了擁有 5300 億個參數的 Megatron-Turing 自然語言生成模型(MT-NLG)。與它一起發布的框架 NVIDIA NeMo Megatron 旨在讓任何企業都能創建自己的十億或萬億參數 Transformer,為自定義聊天機器人、個人助手以及其他能理解語言的 AI 應用提供助力。

MT-NLG 首次公開亮相是作為 Toy Jensen(TJ)虛擬形象的大腦,幫助 TJ 在 NVIDIA 2021 年 11 月的 GTC 上發表了一部分主題演講。

負責 NVIDIA 團隊訓練該模型的 Mostofa Patwary 表示:“當我們看到 TJ 回答問題時,他作為我們的首席執行官展示我們的工作成果,那一刻真是令人振奮?!?/p>

創建這樣的模型并非易事。MT-NLG 使用數千億個數據元素訓練而成,整個過程需要數千顆 GPU 運行數周時間。

Patwary 表示:“訓練大型 Transformer 模型既昂貴又耗時,如果前一兩次沒有成功,項目就可能被取消?!?/p>

萬億參數 Transformer

如今,許多 AI 工程師正在研究萬億參數 Transformer 及其應用。

Patwary 表示:“我們一直在研究這些大模型如何提供更好的應用。我們還在研究它們會在哪些方面失敗,這樣就能創建出更好、更大的模型?!?/p>

為了提供這些模型所需的算力,NVIDIA 的加速器內置了一個 Transformer 引擎并支持新的 FP8 格式,既加快了訓練速度,又保持了準確性。

黃仁勛在 GTC 2022 上表示,通過這些及其他方面的進步,“Transformer 模型的訓練時間可以從數周縮短到數天?!?/p>

TJ 在 GTC 2022 上表示:“Megatron 能幫助我回答黃仁勛拋給我的所有難題。”

MoE 對于 Transformer 的意義更大

谷歌研究人員 2021 年介紹的 Switch Transformer 是首批萬億參數模型之一。該模型利用 AI 稀疏性、復雜的混合專家(MoE)架構等先進技術提高了語言處理性能并使預訓練速度加快了最多 7 倍。

8cb8f6e8-9ffe-11ef-93f3-92fbcf53809c.jpg

首個擁有多達一萬億個參數模型 Switch Transformer 的編碼器

微軟 Azure 則與 NVIDIA 合作,在其翻譯服務中使用了 MoE Transformer。

解決 Transformer 所面臨的挑戰

如今,一些研究人員的目標是開發出性能與那些最大的模型相同、但參數更少并且更簡單的 Transformer。

Cohere 的 Gomez 以 DeepMind 的 Retro 模型為例:“我看到基于檢索的模型將大有可為并實現彎道超車,對此我感到非常興奮。”

基于檢索的模型通過向數據庫提交查詢來進行學習。他表示:“這很酷,因為你可以對放到知識庫中的內容進行選擇?!?/p>

8ccbe12c-9ffe-11ef-93f3-92fbcf53809c.jpg

在追求更高性能的過程中,Transformer 模型的規模也在不斷擴大

Vaswani 現在是一家隱形 AI 初創公司的聯合創始人,他表示最終目標是“讓這些模型像人類一樣,在現實世界中使用極少的數據就能從上下文中學習?!?/p>

他想象未來的模型可以在前期進行更多計算,從而減少對數據的需求,使用戶能夠更好地提供反饋。

“我們的目標是創建能夠在日常生活中幫助人們的模型。”

安全、負責任的模型

其他研究人員正在研究如何在模型放大錯誤或有害語言時消除偏見或有害性,例如斯坦福大學專門創建了基礎模型研究中心探究這些問題。

NVIDIA 研究科學家 Shrimai Prabhumoye 是業內眾多研究這一領域的人士之一。他表示:“這些都是在安全部署模型前需要解決的重要問題?!?/p>

“如今,大多數模型需要的是特定的單詞或短語。但在現實生活中,這些內容可能會以十分微妙的方式呈現,因此我們必須考慮整個上下文。”

Gomez 表示:“這也是 Cohere 最關心的問題。如果這些模型會傷害到人,就不會有人使用它們,所以創建最安全、最負責任的模型是最基本的要求?!?/p>

展望未來

在 Vaswani 的想象中,未來能夠自我學習、由注意力驅動的 Transformer 最有可能成為 AI 的“殺手锏”。

他表示:“我們現在有機會實現人們在創造‘通用人工智能’一詞時提到的一些目標,我覺得這給我們帶來了巨大的啟發。”

“在當前這個時代,神經網絡等各種簡單的方法正在賦予我們大量新的能力。”

小結

本文通過對 Transformer 模型的應用案例進行了梳理,并對其未來的發展方向進行了預測。從生物醫藥到科學研究,該模型不僅在技術上取得了突破,更在實際應用中展現了其深遠的影響力和廣闊的前景。本文系列內容到此已經對 Transformer 模型如何擴展我們對于機器學習和 AI 的想象進行了深入介紹。隨著技術的不斷進步,Transformer 模型將在 AI 的新時代中扮演著更加關鍵的角色,推動各行各業的創新與變革。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • NVIDIA
    +關注

    關注

    14

    文章

    5238

    瀏覽量

    105758
  • AI
    AI
    +關注

    關注

    87

    文章

    34156

    瀏覽量

    275327
  • 模型
    +關注

    關注

    1

    文章

    3483

    瀏覽量

    49980
  • Transformer
    +關注

    關注

    0

    文章

    148

    瀏覽量

    6389

原文標題:什么是 Transformer 模型(二)

文章出處:【微信號:NVIDIA_China,微信公眾號:NVIDIA英偉達】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    如何使用MATLAB構建Transformer模型

    Transformer 模型在 2017 年由 Vaswani 等人在論文《Attentionis All You Need》中首次提出。其設計初衷是為了解決自然語言處理(Nature
    的頭像 發表于 02-06 10:21 ?3337次閱讀
    如何使用MATLAB構建<b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>

    transformer專用ASIC芯片Sohu說明

    的舊圖像模型,也不能運行CNN、RNN或LSTM。 但對于transformer來說,Sohu是有史以來最快的芯片。 借助Llama 70B每秒超過50萬個token的吞吐量,Sohu可以讓您構建在GPU上無法實現的產品
    的頭像 發表于 01-06 09:13 ?957次閱讀
    <b class='flag-5'>transformer</b>專用ASIC芯片Sohu說明

    知行科技大模型研發體系初見效果

    Transformer)模型作為教師,CNN網絡作為學生進行學習。推進異構神經網絡間知識蒸餾研究的具體范式/方法,被收錄于NeurIPS 2024(第38屆神經信息處理系統會議)。
    的頭像 發表于 12-27 09:38 ?521次閱讀
    知行科技大<b class='flag-5'>模型</b>研發體系初見效果

    【「大模型啟示錄」閱讀體驗】如何在客服領域應用大模型

    多個因素以確保所選模型能夠滿足企業的具體需求和目標。首先,企業需要明確自己的客服需求和目標。例如,是否需要24小時在線客服服務?是否需要處理復雜問題的能力?是否需要個性化服務?明確這些需求有助于企業更好
    發表于 12-17 16:53

    Transformer模型能夠做什么

    盡管名為 Transformer,但它們不是電視銀幕上的變形金剛,也不是電線桿上垃圾桶大小的變壓器。
    的頭像 發表于 11-20 09:27 ?854次閱讀
    <b class='flag-5'>Transformer</b><b class='flag-5'>模型</b>能夠做什么

    自動駕駛中一直說的BEV+Transformer到底是個啥?

    (Bird’s Eye View)+Transformer”是兩個方向的技術,BEV是一種全新的3D坐標系,而Transformer則是一種深度學習神經網絡模型,BEV+Transformer
    的頭像 發表于 11-07 11:19 ?1208次閱讀
    自動駕駛中一直說的BEV+<b class='flag-5'>Transformer</b>到底是個啥?

    Llama 3 模型與其他AI工具對比

    、技術架構 Llama 3模型 采用了最新的Transformer架構,并結合了自注意力機制和分組查詢關注(GQA)機制。 引入了高效的tokenizer和RoPE位置編碼,提高了語言編碼和長文
    的頭像 發表于 10-27 14:37 ?942次閱讀

    【《大語言模型應用指南》閱讀體驗】+ 基礎知識學習

    習語言的表達方式和生成能力。通過預測文本中缺失的部分或下一個詞,模型逐漸掌握語言的規律和特征。 常用的模型結構 Transformer架構:大語言模型通?;?/div>
    發表于 08-02 11:03

    Transformer能代替圖神經網絡嗎

    Transformer作為一種在處理序列數據方面表現出色的深度學習模型,自其提出以來,已經在自然語言處理(NLP)、時間序列分析等領域取得了顯著的成果。然而,關于Transformer是否能完全代替圖神經網絡(GNN)的問題,需
    的頭像 發表于 07-12 14:07 ?802次閱讀

    Transformer語言模型簡介與實現過程

    在自然語言處理(NLP)領域,Transformer模型以其卓越的性能和廣泛的應用前景,成為了近年來最引人注目的技術之一。Transformer模型由谷歌在2017年提出,并首次應用于
    的頭像 發表于 07-10 11:48 ?2813次閱讀

    llm模型有哪些格式

    : 基于Transformer模型 Transformer是一種基于自注意力機制的模型,廣泛應用于NLP領域?;?b class='flag-5'>Transformer
    的頭像 發表于 07-09 09:59 ?1283次閱讀

    llm模型和chatGPT的區別

    ,有許多不同的LLM模型,如BERT、GPT、T5等。 ChatGPT是一種基于GPT(Generative Pre-trained Transformer模型的聊天機器人。GPT模型
    的頭像 發表于 07-09 09:55 ?1867次閱讀

    Transformer模型在語音識別和語音生成中的應用優勢

    隨著人工智能技術的飛速發展,語音識別和語音生成作為人機交互的重要組成部分,正逐漸滲透到我們生活的各個方面。而Transformer模型,自其誕生以來,憑借其獨特的自注意力機制和并行計算能力,在
    的頭像 發表于 07-03 18:24 ?1979次閱讀

    使用PyTorch搭建Transformer模型

    Transformer模型自其問世以來,在自然語言處理(NLP)領域取得了巨大的成功,并成為了許多先進模型(如BERT、GPT等)的基礎。本文將深入解讀如何使用PyTorch框架搭建Trans
    的頭像 發表于 07-02 11:41 ?2434次閱讀

    Transformer 能代替圖神經網絡嗎?

    Transformer模型發布時,它徹底革新了機器翻譯領域。雖然最初是為特定任務設計的,但這種革命性的架構顯示出它可以輕松適應不同的任務。隨后成為了Transformer一個標準,甚至用于它最
    的頭像 發表于 07-02 08:27 ?517次閱讀
    <b class='flag-5'>Transformer</b> 能代替圖神經網絡嗎?