處理人工生成的文本數(shù)據(jù)一直是一項重要但具有挑戰(zhàn)性的任務(wù),因為人類語言對于機(jī)器理解往往具有自然的魯棒性。
盡管如此,仍然有許多高效的 NLP 模型,例如 Google 的 BERT 和 Open AI 的 GPT2,它們的功能是通過高級處理和計算來理解這些數(shù)據(jù)。這些模型在搜索引擎中找到了它們的應(yīng)用,因為搜索命令需要與相關(guān)的來源和頁面匹配,而與術(shù)語的性質(zhì)無關(guān)。
麻省理工學(xué)院的 SpAtten 學(xué)習(xí)系統(tǒng)通過其優(yōu)化的軟件硬件設(shè)計專注于高效的搜索預(yù)測,從而以更少的計算能力進(jìn)行高級自然語言處理。因此,SpAtten 系統(tǒng)的架構(gòu)取代了高端 CPU 和 GPU 的組合,它們共同輸出類似于 MIT 的 SpAtten 學(xué)習(xí)系統(tǒng)的效率。
SpAtten 學(xué)習(xí)系統(tǒng)中的注意力機(jī)制
當(dāng)數(shù)據(jù)量大時,注意力機(jī)制在自然語言處理中起著至關(guān)重要的作用。特別是在文本數(shù)據(jù)包含對建模可能不是很重要的各種特征的情況下。這可能會浪費系統(tǒng)的整體計算。因此,神經(jīng)網(wǎng)絡(luò)輸入層中的注意力機(jī)制從文本數(shù)據(jù)中動態(tài)提取相關(guān)特征,可以優(yōu)化算法在廣泛數(shù)據(jù)集上的處理。
SpAtten 使用注意力機(jī)制算法去除在 NLP 方面權(quán)重較小的單詞。因此,它有選擇地從輸入的文本數(shù)據(jù)中挑選出相關(guān)的關(guān)鍵詞。這避免了對不必要的文本數(shù)據(jù)的實時處理,從而節(jié)省了系統(tǒng)的整體計算時間。然而,這種處理提供了效率和準(zhǔn)確性,但它的代價是設(shè)計良好的硬件與這種復(fù)雜的算法兼容。
因此,麻省理工學(xué)院一直致力于其新 SpAtten 學(xué)習(xí)系統(tǒng)的軟件和硬件方面。設(shè)計的硬件致力于優(yōu)化這些復(fù)雜的算法,以減少處理和內(nèi)存訪問。這些技術(shù)在用于文本數(shù)據(jù)時克服了構(gòu)建具有高效處理速度和能力的系統(tǒng)的挑戰(zhàn)。因此,硬件“以更少的計算能力實現(xiàn)了精簡的 NLP”。
SpAtten 架構(gòu)的優(yōu)化技術(shù)
循環(huán)和卷積神經(jīng)網(wǎng)絡(luò)被認(rèn)為是深度學(xué)習(xí)模型的理想選擇,但麻省理工學(xué)院關(guān)于“SpAtten: Efficient Sparse Attention Architecture with Cascade Token and Head Pruning”的研究論文讓我們注意到注意力機(jī)制可以比這些網(wǎng)絡(luò)表現(xiàn)更好,如前一部分所述。
該架構(gòu)支持級聯(lián)修剪技術(shù),該技術(shù)對令牌??和頭進(jìn)行操作,而不是傳統(tǒng)方法中使用的權(quán)重。正如術(shù)語“剪枝”暗示移除令牌一樣,一旦從層中移除令牌/頭,那么它將永遠(yuǎn)不會在后續(xù)層中被處理,因為它被永久“剪枝”或從系統(tǒng)中移除。這就是為什么優(yōu)化數(shù)據(jù)的實時處理并且系統(tǒng)適應(yīng)輸入實例的原因。
該系統(tǒng)使用漸進(jìn)式量化技術(shù)來減少 DRAM 訪問。僅當(dāng) MSB 不足以執(zhí)行量化時,該技術(shù)才對 LSB 起作用。然而,這是以計算為代價的,但內(nèi)存訪問顯著減少。因此,它使注意力層動態(tài)和自適應(yīng)以優(yōu)化 DRAM 訪問。該系統(tǒng)還帶有內(nèi)置的 SRAM,用于存儲可在眾多查詢中重復(fù)使用的已刪除令牌。
通用的 AI 加速器、GPU、TPU 和 NPU 即使支持高計算能力也無法實現(xiàn)這些技術(shù),因為這些組件只能增強(qiáng)現(xiàn)有的傳統(tǒng)神經(jīng)網(wǎng)絡(luò),包括 CNN 和 RNN。因此,麻省理工學(xué)院設(shè)計了專門的硬件來實現(xiàn)這些優(yōu)化算法。
SpAtten 學(xué)習(xí)系統(tǒng)的分析
SpAtten 硬件架構(gòu)的模擬揭示了其與競爭處理器相比的高處理能力。麻省理工學(xué)院表示:“SpAtten 的運(yùn)行速度比第二好的競爭對手(TITAN Xp GPU)快 100 倍以上。此外,SpAtten 的能源效率是其競爭對手的 1000 多倍,這表明 SpAtten 可以幫助減少 NLP 的大量電力需求。”
Google 的 BERT 和 Open AI 的 GPT2 模型也使用類似的注意力機(jī)制,但是復(fù)雜的判別和生成技術(shù)會導(dǎo)致延遲和延遲。MIT 的 SpAtten 是 NLP 算法和專用于注意力機(jī)制的專用硬件的組合。這種組合控制了標(biāo)準(zhǔn) CPU 在 GPT-2 或 BERT 上運(yùn)行時消耗的高功耗。
審核編輯:郭婷
-
處理器
+關(guān)注
關(guān)注
68文章
19825瀏覽量
233757 -
gpu
+關(guān)注
關(guān)注
28文章
4916瀏覽量
130734 -
深度學(xué)習(xí)
+關(guān)注
關(guān)注
73文章
5555瀏覽量
122538
發(fā)布評論請先 登錄
經(jīng)顱電刺激適應(yīng)癥之tDCS治療注意力缺陷ADHD

如何使用MATLAB構(gòu)建Transformer模型

ADS1299S是否推薦有與DEMO匹配的傳感器頭?
《算力芯片 高性能 CPUGPUNPU 微架構(gòu)分析》第3篇閱讀心得:GPU革命:從圖形引擎到AI加速器的蛻變
什么是LLM?LLM在自然語言處理中的應(yīng)用
一種基于因果路徑的層次圖卷積注意力網(wǎng)絡(luò)

Llama 3 模型與其他AI工具對比
未來AI大模型的發(fā)展趨勢
【「算力芯片 | 高性能 CPU/GPU/NPU 微架構(gòu)分析」閱讀體驗】--全書概覽
2024 年 19 種最佳大型語言模型

評論