女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

后摩智能四篇論文入選三大國際頂會

后摩智能 ? 來源:后摩智能 ? 2025-05-29 15:37 ? 次閱讀

2025 年上半年,繼年初被AAAI、ICLR、DAC 三大國際頂會收錄 5 篇論文后,后摩智能近期又有 4 篇論文入選CVPR、ICML、ACL三大國際頂會,面向大模型的編碼、量化、壓縮與微調等技術難題提出創新性解決方案,為大模型的性能提升、多場景部署建構了可行路徑。

眾所周知,CVPR作為計算機視覺領域國際頂級會議,專注于圖像和視頻的感知與理解;ICML作為機器學習領域頂會,強調算法、理論與模型創新;ACL作為自然語言處理領域頂會,聚焦語言理解與生成。這三大會議分別代表了人工智能的三個核心子領域,是全球學術界和產業界高度關注的重要學術交流平臺。

本文將簡要概述近期被收錄論文的關鍵工作。

01【CVPR-2025】PillarHist:AQuantization-aware PillarFeature Encoderbased onHeight-aware Histogram

PillarHist:一種基于高度直方圖的高效 pillar 特征編碼方法

自動駕駛機器人等對實時感知要求較高的場景中,基于LiDAR的3D目標檢測技術近年來得到了廣泛關注。Pillar-based方法因其結構簡單、計算效率高,成為了當前主流的輕量級三維檢測方案之一。然而,我們在調研和實驗中發現,現有的pillar特征編碼模塊(PFE)在處理高度信息和模型量化方面仍存在一定局限。

研究動機

當前大多數PFE模塊采用max pooling等方式對點云特征進行匯聚,這種策略雖然計算高效,但容易造成細粒度信息的丟失,特別是在高度維度上的表達不夠充分。此外,由于輸入特征量綱差異大,直接量化后模型性能往往下降較為明顯。

為了解決上述問題,我們提出了一種新的pillar特征編碼方法——PillarHist,旨在在保持高效率的同時,增強模型對高度信息的建模能力,并提升其在低比特量化下的魯棒性。

方法簡介

PillarHist的核心思想是通過高度離散直方圖來替代傳統的點級特征匯聚方式。具體而言,我們將每個pillar在高度方向劃分為若干個區間(bin),統計每個區間內的點數以及反射強度的加權平均值,從而構建出包含幾何與語義信息的直方圖特征表示。同時,結合pillar的中心坐標信息,我們通過一個輕量的線性層將其映射為最終的pillar特征向量。

與傳統PFE模塊相比,PillarHist具有以下優勢:

更強的高度建模能力:保留了點云在高度維度上的結構信息;

避免信息丟失:不再依賴max pooling,減少特征壓縮帶來的損失;

計算更高效:特征提取操作在pillar級別完成,降低了總體計算開銷;

量化友好:特征值范圍穩定,INT8量化后性能下降更小。

實驗結果

我們在KITTI、nuScenes和Waymo等多個公開數據集上對PillarHist進行了驗證。在多個主流pillar-based檢測框架(如PointPillars、CenterPoint、PillarNet等)中引入PillarHist后,模型在精度和推理速度方面均有不同程度的提升。其中,在nuScenes上平均提升約1%的NDS,同時推理延遲降低4~9ms。在8-bit量化實驗中,PillarHist有效減少了量化帶來的性能損失,表現出良好的硬件適應性。

總結

PillarHist作為一種結構簡單但有效的PFE模塊,能夠在不改變原有檢測框架的前提下,提升模型對高度信息的表達能力,并增強其在實際部署中的可用性。我們希望這一工作能為三維目標檢測尤其是輕量化和部署友好的設計提供一種可行的方向。

02【ICML-2025】RWKVQuant: Quantizing the RWKV Family with Proxy Guided Hybrid of Scalar and Vector Quantization

RWKVQuant:首個面向RWKV模型的高效量化框架

在大模型時代,Transformer架構獨領風騷,但近年來一種融合了RNN與Transformer優勢的新型架構——RWKV,正在悄然崛起。RWKV模型以其推理高效、結構簡潔等特性,在語言和視覺任務上均展現出媲美主流大模型的性能。然而,RWKV在部署到邊緣設備或資源受限場景時,仍面臨模型體積大、計算開銷高等現實挑戰。

為此,我們重磅推出RWKVQuant——首個專為RWKV模型設計的后訓練量化(Post-Training Quantization,簡稱PTQ)框架,以應對RWKV模型在部署過程中的性能瓶頸!

研究動機

盡管已有許多PTQ方法在Transformer類模型中取得了成功,例如GPTQ、AWQ、GPTVQ等,但直接將這些方法應用于RWKV模型時,效果卻大打折扣:

非線性操作阻礙了參數融合:RWKV結構中含有Token Shift、Sigmoid、指數函數等非線性模塊,導致SmoothQuant、QuaRot等方法無法像在Transformer中那樣高效融合參數,反而引入了額外計算開銷;

權重分布更均勻,聚類難度大:RWKV權重呈現更強的均勻性,這對傳統基于聚類的向量量化(VQ)方法構成挑戰,聚類效果不佳,精度下降嚴重。

方法簡介

RWKVQuant創新性地提出代理引導的標量-向量混合量化策略,實現高壓縮率和高保真度的完美平衡:

1. 粗到細的雙層代理機制

粗粒度代理(Information Entropy):衡量權重整體的均勻性。當權重分布不均時,直接采用VQ;

細粒度代理(高階中心矩):即使整體均勻,也能識別局部異常值。若存在離群點,仍優先選擇VQ;否則使用SQ。

此機制極大提升了量化策略的適應性和智能決策能力。

2. 針對RWKV結構優化的codebook生成

RWKV在所有投影層中大量使用逐元素乘法操作,而現有VQ方法多針對矩陣乘法模塊。RWKVQuant首創了適用于逐元素乘法的codebook優化算法,通過激活值加權KMeans聚類,有效降低量化誤差。

實驗結果

RWKVQuant在多個RWKV模型上進行了驗證,取得了顯著成果:

量化比特數降低至約3-bit,精度損失小于1%;

RWKV-6-14B模型內存占用減少至原來的1/3;

推理速度提升高達2.14倍;

在LAMBADA等語言理解任務上,PPL下降、Zero-shot準確率提升,遠超GPTQ、AWQ、GPTVQ等主流方法;

在ImageNet、COCO和ADE20K等視覺任務上,RWKVQuant同樣表現出色。

總結

RWKVQuant的推出,標志著RWKV模型在輕量化部署領域邁出了關鍵一步。我們相信,這一創新性的量化框架不僅能推動RWKV在語言與視覺任務中的廣泛應用,也將為大模型在資源受限環境下的落地提供全新可能。

03【ICML-2025】MoEQuant: Enhancing Quantization for Mixture-of-Experts Large Language Models via Expert-Balanced Sampling and Affinity Guidance

解鎖MoE大模型部署新范式:MoEQuant讓壓縮不再“犧牲性能”

近年來,大語言模型(LLMs)在自然語言處理領域取得了突破性進展,尤其是引入“專家混合”(Mixture-of-Experts, MoE)架構的模型,以其高效、可擴展的特性,成為推動模型性能與計算效率雙贏的重要方向。

然而,MoE模型也帶來了新的挑戰:激活參數稀疏,存儲壓力巨大,尤其在推理階段,雖然只激活少數專家,但所有專家參數必須常駐顯存,導致部署成本居高不下。如何讓MoE大模型“瘦身”而又不“失智”,成為業界亟待解決的問題。

研究動機

傳統PTQ方法如 GPTQ 和 AWQ 在標準LLMs中表現出色,但在應用到MoE模型時卻顯得力不從心。其原因在于:MoE架構的稀疏激活和動態路由機制,打破了常規量化對樣本分布和重要性評估的假設,導致量化后模型性能急劇下降。

為此,MoEQuant 識別并解決了兩個核心問題:

專家間不平衡 (Inter-expert imbalance):部分專家在校準過程中被頻繁激活,而另一些專家幾乎被忽略,導致量化精度失衡;

專家內相關性不一致(Intra-expert imbalance):不同樣本與專家之間的“親和度”差異顯著,傳統量化忽略了這種動態關系,導致權重更新失真。

方法簡介

MoEQuant 引入如下兩項關鍵技術,有效解決上述挑戰:

Expert-Balanced Self-Sampling(EBSS)

傳統量化依賴固定校準集(如 WikiText2),在 MoE 中容易出現樣本分布偏差。EBSS 利用模型自采樣機制,在確保語義合理的前提下,引導生成覆蓋各專家的均衡樣本集,顯著提升校準質量。

Affinity-Guided Quantization (AGQ)

AGQ 首次將“樣本-專家親和度”納入量化過程,為每個樣本分配權重,引導誤差優化方向,并重新定義Hessian矩陣計算方式,使量化更加精細化、感知MoE動態特性。

實驗結果

在Qwen-MoE-14B、DeepSeek-MoE-16B 和 Mixtral-8x7B 三大知名 MoE 模型上,MoEQuant 實現了令人矚目的成果:

HumanEval 編程任務準確率提升超10個百分點;

在 GSM8K、MMLU、BoolQ 等推理任務上表現全面優于 GPTQ 和 AWQ;

部署效率提升:平均推理速度提升 1.2×,顯存節省 3.2×,支持在消費級GPU(如 RTX 4090)部署大模型。

更令人驚喜的是,在指令微調版本(Chat模型)中,MoEQuant 依然保持高精度,部分任務甚至超過全精度模型性能,這對實際應用部署具有重大意義。

總結

MoEQuant 的提出,不僅是大模型量化技術的一次飛躍,更是向“高性能+低成本”大模型部署目標邁出的堅實一步。在未來的AI應用場景中,無論是邊緣設備部署,還是云端推理優化,MoEQuant 都將成為不可或缺的“壓縮利器”。

04【ACL-2025】GSQ-Tuning: Group-Shared Exponents Integer in Fully Quantized Training for LLMs On-Device Fine-tuning

GSQ-Tuning:探索資源受限設備上的大模型微調新路徑

近年來,大語言模型(LLM)在自然語言處理、代碼生成、多模態理解等領域取得了突破性進展。然而,隨著模型規模的不斷擴大,將其部署到資源受限的邊緣設備,仍面臨諸多挑戰。傳統的微調方式通常依賴大規模浮點運算,不僅計算資源需求高,而且在涉及隱私數據時存在上傳云端的風險。

為此,我們提出了一種全新的大模型微調方法 GSQ-Tuning(Group-Shared Exponents Quantization Tuning),旨在實現低浮點依賴、端到端整數化的大模型微調流程,更適配隱私敏感與資源受限的終端場景。

方法簡介

GSQ-Tuning 的關鍵技術在于我們設計的 Group-Shared Exponents Integer(GSE)格式。針對傳統浮點格式中指數位冗余的問題,GSE 通過在一組參數中共享指數位,實現更高效的低比特整數表示。具體而言:

每組數據共享一個 5-bit 指數位;

替代浮點的隱式前導 1 表示,采用顯式整數表示;

通過指數共享,大幅減少了存儲與計算時的元數據開銷。

這一表示方式不僅保留了數據的動態范圍,還提升了表示密度,尤其適用于具有空間局部性特征的神經網絡權重和激活值。

1.整數化算子支持:Forward & Backward

在算子層面,GSQ-Tuning 不僅支持前向傳播的整數矩陣乘法,還將整數計算擴展至反向傳播與梯度更新階段,實現真正意義上的 Fully Quantized Training。我們采用了經典的 Quantize-Compute-Dequantize(QCD) 流程:

量化:將輸入權重、激活與梯度從高精度(如 BF16)轉換為 GSE-INT 格式;

計算:在整數域中完成乘加運算(MAC),利用共享指數實現高效縮放;

反量化:必要時將輸出轉換回高精度格式做后處理或損失計算。

這一流程不僅適配 INT5/INT6 等低比特精度,還顯著提升了對整數計算硬件(如手機 NPU、FPGA、邊緣 AI 芯片)的利用率。

2.與 LoRA 的結合:高效參數微調

為了進一步降低訓練開銷,我們將 GSQ-Tuning 與主流的 LoRA(Low-Rank Adaptation) 方法結合,僅對少量低秩矩陣進行更新。不同于 QLoRA 仍需在 BF16 精度下更新 LoRA 參數,我們在 LoRA 分支同樣采用整數化表示與更新,使整個訓練流程真正實現浮點“歸零”。

我們還提出了 位寬與秩的協同優化策略(Bits-Rank Pareto Frontier),根據資源預算靈活選擇參數配置,在精度與效率間找到最優平衡。

實驗結果

我們在多個 LLaMA 系列模型(3B~70B)、多種微調數據集(Alpaca、CS170K)和任務(BoolQ、PIQA、HellaSwag 等)上進行了驗證:

在 6-bit 設置下,GSQ-Tuning 的精度與 FP16 微調幾乎持平,平均僅下降不到 1%;

與 FP8 相比,在相同任務精度下,功耗降低約 5 倍,芯片面積減少約 11 倍;

內存使用方面,GSQ-Tuning 比 QLoRA 至少節省 40%~50% 的顯存開銷。

此外,在多模態任務(如 LLaVA-v1.5)中,我們也觀察到 GSE 格式在視覺-語言聯合學習中具有良好的遷移與泛化能力。

總結

GSQ-Tuning 是我們在大模型端側部署探索過程中的一次初步嘗試。通過全流程整數化、參數高效更新和硬件友好設計,我們希望為大模型在本地化、個性化、隱私保護等應用場景提供一種更實際、更落地的技術路徑。

上述4篇論文聚焦模型的編碼、量化、壓縮與微調等技術瓶頸,從性能提升到場景部署,多維展現了后摩智能在AI技術創新與應用上的前瞻性與深度思考。研究成果從理解準確率、空間占用率、推理速率、部署效率等多方面,為大模型的輕量化部署、端側部署以及邊緣設備部署提供了更多可行方案。

接下來,我們將依序發布4篇論文深度解析,詳盡分享每篇論文的創新思路等,歡迎關注。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8490

    瀏覽量

    134030
  • 自然語言處理

    關注

    1

    文章

    628

    瀏覽量

    14000
  • 后摩智能
    +關注

    關注

    0

    文章

    33

    瀏覽量

    1324
  • 大模型
    +關注

    關注

    2

    文章

    3020

    瀏覽量

    3799

原文標題:后摩前沿 | 后摩智能4篇論文入選CVPR、ICML、ACL三大國際頂會,攻關大模型端邊側部署關鍵技術

文章出處:【微信號:后摩智能,微信公眾號:后摩智能】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    云知聲論文入選自然語言處理ACL 2025

    結果正式公布。云知聲在此次國際學術盛會中表現卓越,共有4論文被接收,其中包括2論文(Ma
    的頭像 發表于 05-26 14:15 ?152次閱讀
    云知聲<b class='flag-5'>四</b><b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b>自然語言處理<b class='flag-5'>頂</b><b class='flag-5'>會</b>ACL 2025

    智能NPU適配通義千問Qwen3系列模型

    近日,阿里云重磅推出Qwen3 系列開源混合推理模型。用時不到1天,智能自研NPU迅速實現Qwen3 系列模型(Qwen3 0.6B-14B)在端邊側的高效部署。這一成果充分彰顯了
    的頭像 發表于 05-07 16:46 ?316次閱讀

    智能入選中國移動AI能力聯合艦隊

    在第八屆數字中國建設峰會期間,中國移動正式發布 “AI 能力聯合艦隊”。作為存算一體芯片領域的先鋒,智能憑借顛覆式創新技術與強勁的算力支持能力,成功入選中國移動 “AI 能力聯合艦
    的頭像 發表于 05-06 17:14 ?373次閱讀

    匯川技術大國際展會圓滿收官

    近年來,匯川技術持續推動全球化發展戰略,依托強大的技術研發與智能制造能力,積極布局海外市場,持續推出符合各地標準的創新產品。 近日,匯川技術攜最新產品和解決方案再度亮相大國際展會——法國雷恩食品
    的頭像 發表于 03-26 15:17 ?443次閱讀

    智能5論文入選國際

    2025年伊始,智能在三大國際(AAAI、ICLR、DAC)中斬獲佳績,共有5
    的頭像 發表于 02-19 14:02 ?594次閱讀
    <b class='flag-5'>后</b><b class='flag-5'>摩</b><b class='flag-5'>智能</b>5<b class='flag-5'>篇</b><b class='flag-5'>論文</b><b class='flag-5'>入選</b><b class='flag-5'>國際</b><b class='flag-5'>頂</b><b class='flag-5'>會</b>

    智能接連斬獲項大獎

    由清科創業與投資界共同發起的 2024 VENTURE50 評選結果重磅揭曉。智能憑借過硬的技術水準和創新產品,成功躋身 2024 投資界硬科技 VENTURE50 榜單,凸顯了公司在半導體領域
    的頭像 發表于 01-17 11:26 ?616次閱讀

    經緯恒潤功能安全AI 智能論文成功入選EMNLP 2024!

    近日,經緯恒潤在智能體(AIAgent)領域再獲佳績,其論文《Aegis
    的頭像 發表于 10-18 08:00 ?606次閱讀
    經緯恒潤功能安全AI <b class='flag-5'>智能</b>體<b class='flag-5'>論文</b>成功<b class='flag-5'>入選</b>EMNLP 2024!

    智能首款存算一體智駕芯片獲評突出創新產品獎

    近日,2024年6月29日,由深圳市汽車電子行業協會主辦的「第十三屆國際汽車電子產業峰會暨2023年度汽車電子科學技術獎頒獎典禮」在深圳寶安隆重舉行。智能首款存算一體智駕芯片——
    的頭像 發表于 09-24 16:51 ?801次閱讀

    精彩集錦|艾邁斯攜第代LC/LF電專用內接件亮相中國

    2024年9月16日,為期4天的第22屆中國國際摩托車博覽圓滿收官。作為低壓大電流內接連接器參展商,艾邁斯在現場展示了自主研發的第代電專用內接連接器LC/LF系列新品,備受參觀者
    的頭像 發表于 09-18 11:04 ?672次閱讀
    精彩集錦|艾邁斯攜第<b class='flag-5'>四</b>代LC/LF電<b class='flag-5'>摩</b>專用內接件亮相中國<b class='flag-5'>摩</b>博<b class='flag-5'>會</b>

    智能與聯想攜手共創AI PC新紀元

    近日,國內領先的存算一體AI芯片創新企業智能與全球知名科技企業聯想集團正式簽署戰略合作協議,標志著雙方在AI PC技術創新與應用領域的深度合作正式啟航。此次合作,旨在融合
    的頭像 發表于 08-02 16:11 ?781次閱讀

    智能與聯想集團簽署戰略協議 共同探索AI PC技術創新與應用

    ? 近日,智能與聯想集團宣布簽署戰略合作協議,雙方將共同探索AI PC的技術創新與應用。根據協議約定,
    的頭像 發表于 07-31 17:24 ?1182次閱讀

    地平線科研論文入選國際計算機視覺ECCV 2024

    近日,地平線兩論文入選國際計算機視覺ECCV 2024,自動駕駛算法技術再有新突破。
    的頭像 發表于 07-27 11:10 ?1301次閱讀
    地平線科研<b class='flag-5'>論文</b><b class='flag-5'>入選</b><b class='flag-5'>國際</b>計算機視覺<b class='flag-5'>頂</b><b class='flag-5'>會</b>ECCV 2024

    芯動力科技論文入選ISCA 2024,與國際巨頭同臺交流研究成果

    布宜諾斯艾利斯舉行的ISCA 2024會議上發表演講,與Intel、AMD等國際知名企業同臺交流。 本屆ISCA共收到來自全球423高質量論文投稿,經過嚴謹的評審流程
    的頭像 發表于 07-18 11:16 ?966次閱讀
    芯動力科技<b class='flag-5'>論文</b><b class='flag-5'>入選</b>ISCA 2024,與<b class='flag-5'>國際</b>巨頭同臺交流研究成果

    谷歌DeepMind被曝抄襲開源成果,論文還中了流會議

    谷歌DeepMind一中了流新生代會議CoLM 2024的論文被掛了,瓜主直指其抄襲了一年前就掛在arXiv上的一項研究。開源的那種。
    的頭像 發表于 07-16 18:29 ?801次閱讀
    谷歌DeepMind被曝抄襲開源成果,<b class='flag-5'>論文</b>還中了<b class='flag-5'>頂</b>流會議

    智能引領AI芯片革命,推出邊端大模型AI芯片M30

    在人工智能(AI)技術飛速發展的今天,AI大模型的部署需求正迅速從云端向端側和邊緣側設備遷移。這一轉變對AI芯片的性能、功耗和響應速度提出了前所未有的挑戰。正是在這樣的背景下,智能
    的頭像 發表于 06-28 15:13 ?1026次閱讀