女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA

智能感知與物聯(lián)網(wǎng)技術(shù)研究所 ? 來源:智能感知與物聯(lián)網(wǎng)技術(shù)研 ? 2024-11-19 17:16 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

大模型應(yīng)用開卷,連一向保守的蘋果,都已釋放出發(fā)展端側(cè)大模型的信號(hào)。 問題是,大語言模型(LLM)卓越的表現(xiàn)取決于“力大磚飛”,如何在資源有限的環(huán)境中部署大模型并保障性能,仍然頗具挑戰(zhàn)。 以對(duì)大模型進(jìn)行量化+LoRA的路線為例,有研究表明,現(xiàn)有方法會(huì)導(dǎo)致量化的LLM嚴(yán)重退化,甚至無法從LoRA微調(diào)中受益。 為了解決這一問題,來自蘇黎世聯(lián)邦理工學(xué)院、北京航空航天大學(xué)和字節(jié)跳動(dòng)的研究人員,最新提出了一種信息引導(dǎo)的量化后LLM微調(diào)新算法IR-QLoRA。論文已入選ICML 2024 Oral論文。

a4f62d2e-9f6e-11ef-93f3-92fbcf53809c.png

論文標(biāo)題:Accurate LoRA-Finetuning Quantization of LLMs via Information Retention

論文鏈接:

hhttps://arxiv.org/pdf/2402.05445

代碼鏈接:

https://github.com/htqin/IR-QLoRA 論文介紹,IR-QLoRA能有效改善量化導(dǎo)致的大模型性能退化。在LLaMA和LLaMA 2系列中,用該方法微調(diào)的2位模型,相比于16位模型僅有0.9%的精度差異。

a50209b4-9f6e-11ef-93f3-92fbcf53809c.png

該方法的核心思想,是通過信息保留來使LoRA微調(diào)量化的大語言模型實(shí)現(xiàn)精度提升。 包含從統(tǒng)一信息角度衍生的兩種技術(shù):信息校準(zhǔn)量化和信息彈性連接。

信息校準(zhǔn)量化LLM的量化權(quán)重被期望反映原始對(duì)應(yīng)方所攜帶的信息,但比特寬度的減小嚴(yán)重限制了表示能力。從信息的角度來看,量化LLM和原始LLM的權(quán)重之間的相關(guān)性表示為互信息。

a518bdee-9f6e-11ef-93f3-92fbcf53809c.png

在LLM量化后,由于比特寬度的顯著減小導(dǎo)致表示能力的降低,量化權(quán)重的熵遠(yuǎn)小于原始權(quán)重的熵。因此,優(yōu)先考慮低比特權(quán)重內(nèi)的信息恢復(fù)對(duì)于增強(qiáng)量化LLM至關(guān)重要。 首先從數(shù)學(xué)上定義信息校準(zhǔn)的優(yōu)化目標(biāo)。校準(zhǔn)過程可以看為向量化器引入一個(gè)校準(zhǔn)常數(shù)以最大化信息,量化過程可以表述如下:

a51f8da4-9f6e-11ef-93f3-92fbcf53809c.png

由于原始權(quán)重是固定的,公式 (1) 中的優(yōu)化目標(biāo)可以表示為:

a533c666-9f6e-11ef-93f3-92fbcf53809c.png

由于直接求解公式 (3) 中的目標(biāo)非常耗時(shí),作者提出了一種分塊校準(zhǔn)量化器信息的兩步策略: 第一步是初始化校準(zhǔn)常數(shù)?;?a href="http://www.asorrir.com/tags/神經(jīng)網(wǎng)絡(luò)/" target="_blank">神經(jīng)網(wǎng)絡(luò)權(quán)重正態(tài)分布的常見假設(shè),將每個(gè)權(quán)重量化塊的常數(shù)初始化為中值。由于正態(tài)分布中靠近對(duì)稱軸的區(qū)域的概率密度較高,因此該初始化旨在更大程度地利用量化器的間隔。應(yīng)用位置相關(guān)中值來初始化, 以減輕異常值的影響。 第二步是優(yōu)化校準(zhǔn)常數(shù)、量化尺度、雙量化尺度。使用信息熵作為度量,并進(jìn)行基于搜索的優(yōu)化以獲得。通過將線性劃分為個(gè)候選來創(chuàng)建的搜索空間,其中是標(biāo)準(zhǔn)差,是系數(shù)。使用每個(gè)候選校準(zhǔn)權(quán)重后,量化校準(zhǔn)的權(quán)重并計(jì)算信息熵。獲得的量化尺度與基線一致。通過得到量化尺度,然后二次量化為和。 對(duì)于優(yōu)化后的校準(zhǔn)常數(shù),執(zhí)行類似于尺度的雙量化以節(jié)省內(nèi)存,信息校準(zhǔn)量化的量化過程可以總結(jié)為:

a54099ae-9f6e-11ef-93f3-92fbcf53809c.png

信息彈性連接除了基線中的量化LLM之外,由低秩矩陣組成的LoRA也阻礙了信息的恢復(fù),為了增強(qiáng)LoRA的表示能力,幫助恢復(fù)量化LLM的信息,同時(shí)保持其輕量級(jí)性質(zhì),作者引入了有效的信息彈性連接。該方法構(gòu)建了一個(gè)強(qiáng)大的低秩適配器,有助于利用從量化的LLM單元導(dǎo)出的信息。 具體來說,首先根據(jù)輸入和中間維度的最大公約數(shù)對(duì)原始特征進(jìn)行分組和平均,并將其添加到由矩陣計(jì)算的輸出中。增加彈性連接的 LoRA 的第一個(gè)子單元可以表示為:

a564b06e-9f6e-11ef-93f3-92fbcf53809c.png

LoRA 的后一個(gè)矩陣將低秩中間表示變換為輸入維度,因此其伴隨的無參數(shù)變換使用重復(fù)串聯(lián)來增加維度。后一個(gè)子單元的計(jì)算過程可以表示為:

a56bed48-9f6e-11ef-93f3-92fbcf53809c.png

與 LLM 和 LoRA 單元中的矩陣乘法相比,無參數(shù)變換是一種多樣化的變換形式,進(jìn)一步增強(qiáng)了量化 LLM 的信息表示。

實(shí)驗(yàn)驗(yàn)證作者廣泛評(píng)估了IR-QLoRA的準(zhǔn)確性和效率。選擇LLaMA和LLaMA 2系列模型,在Alpaca和Flanv2數(shù)據(jù)集上構(gòu)建參數(shù)高效的微調(diào),使用MMLU和CommonsenseQA基準(zhǔn)進(jìn)行評(píng)估微調(diào)后量化模型的效果。 準(zhǔn)確率 以下兩張表格分別展示了在Alpaca和Flanv2數(shù)據(jù)集上微調(diào)的MMLU基準(zhǔn)的5-shot精度結(jié)果。綜合結(jié)果表明,在各種規(guī)模的LLaMA模型中,IR-QLoRA優(yōu)于所有比較量化方法。 與基線方法QLoRA相比,IR-QLoRA在相同的微調(diào)管道下在MMLU基準(zhǔn)上實(shí)現(xiàn)了精度的顯著提高。

a58cc73e-9f6e-11ef-93f3-92fbcf53809c.png

a599fe86-9f6e-11ef-93f3-92fbcf53809c.png

此外,在LLaMA 2上的準(zhǔn)確性比較,證明了IR-QLoRA跨LLM系列的泛化性能。 下表中的結(jié)果表明,IR-QLoRA不僅平均實(shí)現(xiàn)了至少2.7%的性能改進(jìn),而且在幾乎每個(gè)單獨(dú)的指標(biāo)上都表現(xiàn)出了優(yōu)勢(shì)。這些結(jié)果表明IR-QLoRA在不同的LLM系列中表現(xiàn)出很強(qiáng)的泛化性。

a5ae6876-9f6e-11ef-93f3-92fbcf53809c.png

與MMLU基準(zhǔn)上的現(xiàn)象類似,在CommonsenseQA基準(zhǔn)上,與SOTA方法相比,IR-QLoRA始終保持了LLaMA-7B的最佳平均準(zhǔn)確率,而且還顯著提高了大多數(shù)子項(xiàng)的有效性。

a5cb5c74-9f6e-11ef-93f3-92fbcf53809c.png

超低位寬 除了4比特以外,作者還評(píng)估了超低位寬下的IR-QLoRA建議。 具體來說,作者采用了QLoRA和LoftQ的量化方法,按照百分位量化方法構(gòu)建了NF2和NF3量化。 下表顯示,隨著量化位寬的減小,基線QLoRA的性能急劇下降,以至于其在2位情況下的性能與隨機(jī)相差無幾。 相比之下,IR-QLoRA表現(xiàn)出更優(yōu)越的性能,在Flan v2數(shù)據(jù)集上微調(diào)2位模型時(shí),與16位模型相比僅有0.9%的精度差異。

a5d74e58-9f6e-11ef-93f3-92fbcf53809c.png

效率 IR-QLoRA的信息校準(zhǔn)量化和信息彈性連接并沒有帶來額外的存儲(chǔ)和訓(xùn)練開銷。 如上所示,信息校準(zhǔn)量化增加的參數(shù)僅相當(dāng)于量化的縮放因子,而且采用了雙重量化以進(jìn)一步減少存儲(chǔ)。因此其帶來的額外存儲(chǔ)空間很小,在4位LLaMA-7B上僅增加了 2.04%。 校準(zhǔn)常數(shù)的優(yōu)化過程也只增加了微不足道的訓(xùn)練時(shí)間(例如,LLaMA-7B為 0.46%,LLaMA-13B為 0.31%)。此外,增加的時(shí)間僅用于訓(xùn)練過程中的初始優(yōu)化,并不會(huì)導(dǎo)致推理時(shí)間的增加。信息彈性連接也只在每層引入了2個(gè)額外參數(shù),在整個(gè)模型中可以忽略不計(jì)。

結(jié)論總的來說,基于統(tǒng)計(jì)的信息校準(zhǔn)量化可確保LLM的量化參數(shù)準(zhǔn)確保留原始信息;以及基于微調(diào)的信息彈性連接可以使LoRA利用不同信息進(jìn)行彈性表示轉(zhuǎn)換。 廣泛的實(shí)驗(yàn)證明,IRQLoRA在LLaMA和LLaMA 2系列中實(shí)現(xiàn)了令人信服的精度提升,即使是2-4位寬,耗時(shí)也僅增加了0.45%。 IR-QLoRA具有顯著的多功能性,可與各種量化框架無縫集成,并且大大提高了LLM的LoRA-finetuning量化精度,有助于在資源受限的情況下進(jìn)行實(shí)際部署。

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 算法
    +關(guān)注

    關(guān)注

    23

    文章

    4709

    瀏覽量

    95367
  • LoRa
    +關(guān)注

    關(guān)注

    352

    文章

    1780

    瀏覽量

    234839
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3139

    瀏覽量

    4064
  • LLM
    LLM
    +關(guān)注

    關(guān)注

    1

    文章

    325

    瀏覽量

    836

原文標(biāo)題:ICML 2024 | 量化大模型退化嚴(yán)重?ETH北航字節(jié)推出LoRA新范式

文章出處:【微信號(hào):tyutcsplab,微信公眾號(hào):智能感知與物聯(lián)網(wǎng)技術(shù)研究所】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    詳解 LLM 推理模型的現(xiàn)狀

    領(lǐng)域的最新研究進(jìn)展,特別是自DeepSeekR1發(fā)布興起的推理時(shí)間計(jì)算擴(kuò)展相關(guān)內(nèi)容。在LLM中實(shí)施和改進(jìn)推理簡(jiǎn)單來說,基于LLM的推理模型是一種旨在通過生成中間
    的頭像 發(fā)表于 04-03 12:09 ?490次閱讀
    詳解 <b class='flag-5'>LLM</b> 推理模型的現(xiàn)狀

    《AI Agent 應(yīng)用與項(xiàng)目實(shí)戰(zhàn)》閱讀心得3——RAG架構(gòu)與部署本地知識(shí)庫(kù)

    的相似度搜索算法;響應(yīng)生成器則負(fù)責(zé)將檢索結(jié)果整合到提示模板中,調(diào)用LLM生成最終答案。在此再提下云端部署方案,可以分析使用API Key調(diào)用云端LLM的優(yōu)勢(shì)和注意事項(xiàng)。這種部署方式能
    發(fā)表于 03-07 19:49

    摩智能5篇論文入選國(guó)際頂會(huì)

    2025年伊始,摩智能在三大國(guó)際頂會(huì)(AAAI、ICLR、DAC)中斬獲佳績(jī),共有5篇論文被收錄,覆蓋大語言模型(LLM)推理優(yōu)化、模型量化、硬件加速等前沿方向。
    的頭像 發(fā)表于 02-19 14:02 ?765次閱讀
    <b class='flag-5'>后</b>摩智能5篇論文入選國(guó)際頂會(huì)

    【「基于大模型的RAG應(yīng)用開發(fā)與優(yōu)化」閱讀體驗(yàn)】+大模型微調(diào)技術(shù)解讀

    ,減少了計(jì)算成本。LoRA(Low-Rank Adaptation):一種基于低秩分解的微調(diào)方法,通過分解模型參數(shù)矩陣為低秩矩陣來減少參數(shù)更新的數(shù)量,提高訓(xùn)練效率。PET(Prompt-based
    發(fā)表于 01-14 16:51

    小白學(xué)大模型:構(gòu)建LLM的關(guān)鍵步驟

    你梳理如何在構(gòu)建AI算法應(yīng)用時(shí)做出合適的決策。訓(xùn)練LLM的三選擇https://wandb.ai/site/articles/training-llms/在構(gòu)建A
    的頭像 發(fā)表于 01-09 12:12 ?963次閱讀
    小白學(xué)大模型:構(gòu)建<b class='flag-5'>LLM</b>的關(guān)鍵步驟

    在NVIDIA TensorRT-LLM中啟用ReDrafter的些變化

    Recurrent Drafting (簡(jiǎn)稱 ReDrafter) 是蘋果公司為大語言模型 (LLM) 推理開發(fā)并開源的一種新型推測(cè)解碼技術(shù),該技術(shù)現(xiàn)在可與 NVIDIA TensorRT-LLM
    的頭像 發(fā)表于 12-25 17:31 ?751次閱讀
    在NVIDIA TensorRT-<b class='flag-5'>LLM</b>中啟用ReDrafter的<b class='flag-5'>一</b>些變化

    解鎖NVIDIA TensorRT-LLM的卓越性能

    NVIDIA TensorRT-LLM個(gè)專為優(yōu)化大語言模型 (LLM) 推理而設(shè)計(jì)的庫(kù)。它提供了多種先進(jìn)的優(yōu)化技術(shù),包括自定義 Attention Kernel、Inflight
    的頭像 發(fā)表于 12-17 17:47 ?865次閱讀

    文詳解物理信息神經(jīng)網(wǎng)絡(luò)

    物理信息神經(jīng)網(wǎng)絡(luò) (PINN) 是一種神經(jīng)網(wǎng)絡(luò),它將微分方程描述的物理定律納入其損失函數(shù)中,以引導(dǎo)學(xué)習(xí)過程得出更符合基本物理定律的解。
    的頭像 發(fā)表于 12-05 16:50 ?8357次閱讀
    <b class='flag-5'>一</b>文詳解物理<b class='flag-5'>信息</b>神經(jīng)網(wǎng)絡(luò)

    什么是LLM?LLM在自然語言處理中的應(yīng)用

    隨著人工智能技術(shù)的飛速發(fā)展,自然語言處理(NLP)領(lǐng)域迎來了革命性的進(jìn)步。其中,大型語言模型(LLM)的出現(xiàn),標(biāo)志著我們對(duì)語言理解能力的次飛躍。LLM通過深度學(xué)習(xí)和海量數(shù)據(jù)訓(xùn)練,使得機(jī)器能夠以前
    的頭像 發(fā)表于 11-19 15:32 ?3644次閱讀

    TensorRT-LLM低精度推理優(yōu)化

    本文將分享 TensorRT-LLM 中低精度量化內(nèi)容,并從精度和速度角度對(duì)比 FP8 與 INT8。首先介紹性能,包括速度和精度。其次,介紹量化工具 NVIDIA TensorRT Model
    的頭像 發(fā)表于 11-19 14:29 ?1250次閱讀
    TensorRT-<b class='flag-5'>LLM</b>低精度推理優(yōu)化

    如何訓(xùn)練自己的LLM模型

    訓(xùn)練自己的大型語言模型(LLM)是個(gè)復(fù)雜且資源密集的過程,涉及到大量的數(shù)據(jù)、計(jì)算資源和專業(yè)知識(shí)。以下是訓(xùn)練LLM模型的般步驟,以及些關(guān)
    的頭像 發(fā)表于 11-08 09:30 ?1512次閱讀

    LLM和傳統(tǒng)機(jī)器學(xué)習(xí)的區(qū)別

    在人工智能領(lǐng)域,LLM(Large Language Models,大型語言模型)和傳統(tǒng)機(jī)器學(xué)習(xí)是兩不同的技術(shù)路徑,它們?cè)谔幚頂?shù)據(jù)、模型結(jié)構(gòu)、應(yīng)用場(chǎng)景等方面有著顯著的差異。 1. 模型結(jié)構(gòu)
    的頭像 發(fā)表于 11-08 09:25 ?1882次閱讀

    理解LLM中的模型量化

    在本文中,我們將探討一種廣泛采用的技術(shù),用于減小大型語言模型(LLM)的大小和計(jì)算需求,以便將這些模型部署到邊緣設(shè)備上。這項(xiàng)技術(shù)稱為模型量化。它使得人工智能模型能夠在資源受限的設(shè)備上高效部署。在當(dāng)
    的頭像 發(fā)表于 10-25 11:26 ?694次閱讀
    理解<b class='flag-5'>LLM</b>中的模型<b class='flag-5'>量化</b>

    【飛凌嵌入式OK3576-C開發(fā)板體驗(yàn)】rkllm模型量化構(gòu)建

    ;目前 rk3576 平臺(tái)支持“w4a16”和“w8a8”兩量化類型,rk3588 僅支持“w8a8”量化類型; target_platform: 模型運(yùn)行的硬件平臺(tái), 可選擇的設(shè)置包括“rk3576
    發(fā)表于 08-27 22:50

    示波器探頭補(bǔ)償微調(diào)旋鈕的作用

    示波器探頭補(bǔ)償微調(diào)旋鈕是一種用于調(diào)整示波器探頭性能的重要組件。 、示波器探頭補(bǔ)償微調(diào)旋鈕的作用 校準(zhǔn)探頭性能 示波器探頭補(bǔ)償微調(diào)旋鈕的主要
    的頭像 發(fā)表于 08-09 11:31 ?1272次閱讀