女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評(píng)論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫(xiě)文章/發(fā)帖/加入社區(qū)
會(huì)員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識(shí)你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

思必馳與上海交大聯(lián)合實(shí)驗(yàn)室12篇論文被ICASSP 2025收錄

思必馳 ? 來(lái)源:思必馳 ? 2025-05-17 11:41 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

2025年度國(guó)際聲學(xué)語(yǔ)音與信號(hào)處理會(huì)議——ICASSP在印度海得拉巴舉辦,作為語(yǔ)音領(lǐng)域的國(guó)際會(huì)議,其憑借權(quán)威、廣泛的學(xué)界以及工業(yè)界影響力,備受各方關(guān)注。今年許多學(xué)者因故無(wú)法前往印度參加會(huì)議。考慮到廣大學(xué)者的現(xiàn)場(chǎng)交流需求,IEEE信號(hào)處理學(xué)會(huì)特別安排ICASSP 2025在5月23日-25日于蘇州舉辦衛(wèi)星會(huì)議。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室團(tuán)隊(duì)將參與本次現(xiàn)場(chǎng)交流。

在本次ICASSP 2025會(huì)議上,思必馳-上海交大聯(lián)合實(shí)驗(yàn)室共發(fā)表了12篇論文,涵蓋了音頻信息處理、語(yǔ)音喚醒識(shí)別、語(yǔ)音合成、多模態(tài)生成等研究方向,實(shí)現(xiàn)了若干針對(duì)噪聲環(huán)境、低資源、多語(yǔ)種、多模態(tài)等場(chǎng)景的技術(shù)突破,為思必馳的全鏈路語(yǔ)音語(yǔ)言核心技術(shù)實(shí)力以及業(yè)務(wù)創(chuàng)新能力帶來(lái)多重增益。下面介紹本次發(fā)表的部分典型研究成果:

音頻信息處理

Neural Directed Speech Enhancement with Dual Microphone Array in High Noise Scenario

針對(duì)多說(shuō)話人場(chǎng)景實(shí)現(xiàn)了目標(biāo)語(yǔ)音的靈活增強(qiáng),僅使用雙麥克風(fēng)陣列就顯著提高了語(yǔ)音質(zhì)量和下游任務(wù)的性能,尤其是在極低信噪比條件下表現(xiàn)出色。

5ceb0072-3163-11f0-afc8-92fbcf53809c.png

工作簡(jiǎn)介:在多說(shuō)話人場(chǎng)景中,利用空間特征對(duì)增強(qiáng)目標(biāo)語(yǔ)音極為關(guān)鍵,但麥克風(fēng)陣列有限時(shí),構(gòu)建緊湊的多通道語(yǔ)音增強(qiáng)系統(tǒng)頗具挑戰(zhàn),極低信噪比下更是難上加難。為此,我們創(chuàng)新提出三導(dǎo)向空間選擇方法,打造靈活框架,用三個(gè)導(dǎo)向向量指導(dǎo)增強(qiáng)、界定范圍。具體引入因果導(dǎo)向的U型網(wǎng)絡(luò)(CDUNet)模型,以原始多通道語(yǔ)音與期望增強(qiáng)寬度為輸入,據(jù)此依目標(biāo)方向動(dòng)態(tài)調(diào)導(dǎo)向向量,結(jié)合目標(biāo)和干擾信號(hào)角分離微調(diào)增強(qiáng)區(qū)域。該模型僅憑雙麥克風(fēng)陣列,就在語(yǔ)音質(zhì)量與下游任務(wù)表現(xiàn)上十分出色,還具備實(shí)時(shí)操作、參數(shù)少的特性。

語(yǔ)音喚醒識(shí)別

NTC-KWS: Noise-aware CTC for Robust Keyword Spotting

針對(duì)噪聲環(huán)境下的關(guān)鍵詞識(shí)別提出“NTC-KWS”,強(qiáng)化了在車載、家電等噪音場(chǎng)景下的喚醒和識(shí)別精準(zhǔn)度,也為資源受限設(shè)備帶來(lái)高魯棒性的端到端方案。

5d011baa-3163-11f0-afc8-92fbcf53809c.png

工作簡(jiǎn)介:當(dāng)前基于CTC的小型化關(guān)鍵詞識(shí)別系統(tǒng)在低資源計(jì)算平臺(tái)上部署時(shí),因模型尺寸和計(jì)算能力限制,面臨噪聲過(guò)擬合問(wèn)題,導(dǎo)致高誤報(bào)率,尤其在復(fù)雜聲學(xué)環(huán)境下性能顯著下降。因此,我們?cè)贑TC-KWS的框架下提出一種噪聲感知關(guān)鍵詞識(shí)別系統(tǒng)(NTC-KWS),創(chuàng)新性地引入兩類額外的通配符弧對(duì)噪聲進(jìn)行建模:自環(huán)弧處理噪聲導(dǎo)致的插入錯(cuò)誤,旁路弧應(yīng)對(duì)噪聲過(guò)大造成的掩蔽和干擾,旨在提高模型在噪聲環(huán)境中的魯棒性。實(shí)驗(yàn)表明,NTC-KWS在各種聲學(xué)條件下優(yōu)于現(xiàn)有端到端系統(tǒng)和CTC-KWS基線,低SNR條件下優(yōu)勢(shì)尤為顯著。該工作為資源受限設(shè)備提供了輕量化且高魯棒的關(guān)鍵詞識(shí)別方案,其噪聲建模機(jī)制可擴(kuò)展至其他端到端語(yǔ)音敏感任務(wù)。

語(yǔ)音合成

VALL-T: Decoder-Only Generative Transducer for Robust and Decoding-Controllable Text-to-Speech

針對(duì)魯棒、可控語(yǔ)音合成提出“VALL-T”(生成式Transducer模型),進(jìn)一步提升了思必馳在多語(yǔ)種、多場(chǎng)景高保真TTS方面的性能穩(wěn)定性。

5d27d362-3163-11f0-afc8-92fbcf53809c.png

工作簡(jiǎn)介:當(dāng)前基于decoder-only Transformer架構(gòu)的TTS模型缺乏單調(diào)對(duì)齊約束,導(dǎo)致發(fā)音錯(cuò)誤、跳詞和難以停止等幻覺(jué)問(wèn)題,嚴(yán)重制約其實(shí)際應(yīng)用可靠性。

因此,我們提出了VALL-T,即生成式Transducer模型,它為輸入音素序列引入了移位的相對(duì)位置編碼,明確地限制了單調(diào)的生成過(guò)程,同時(shí)保持了decoder-only Transformer的架構(gòu)。實(shí)驗(yàn)表明,我們的模型對(duì)幻覺(jué)表現(xiàn)出更好的魯棒性,詞錯(cuò)誤率相對(duì)降低了28.3%。此外,還可以通過(guò)對(duì)齊的可控性實(shí)現(xiàn)跨語(yǔ)言適配和長(zhǎng)語(yǔ)音穩(wěn)定合成。

多模態(tài)生成

Smooth-Foley: Creating Continuous Sound for Video-to-Audio Generation Under Semantic Guidance

“Smooth-Foley” 視頻到音頻生成模型,擴(kuò)展了智能汽車、智能家居、虛擬數(shù)字人等垂域解決方案上的產(chǎn)品形態(tài),為思必馳進(jìn)一步拓展視聽(tīng)融合交互提供技術(shù)儲(chǔ)備。

5d4b8ef6-3163-11f0-afc8-92fbcf53809c.png

工作簡(jiǎn)介:視頻到音頻(V2A)生成任務(wù)需同步滿足高精度時(shí)間對(duì)齊與強(qiáng)語(yǔ)義一致性,但現(xiàn)有方法因低分辨率的語(yǔ)義條件與時(shí)間條件不夠精確的限制,難以處理動(dòng)態(tài)物體視頻中的復(fù)雜聲景生成。因此,我們提出了Smooth-Foley,一種視頻到音頻的生成模型,不僅在生成過(guò)程提供文本標(biāo)簽的語(yǔ)義引導(dǎo),以增強(qiáng)音頻的語(yǔ)義和時(shí)間對(duì)齊;還通過(guò)訓(xùn)練幀適配器和時(shí)間適配器以利用預(yù)訓(xùn)練的文本到音頻生成模型。實(shí)驗(yàn)表明,Smooth-Foley在連續(xù)聲音場(chǎng)景和一般場(chǎng)景中均優(yōu)于現(xiàn)有模型。生成的音頻具有更高的質(zhì)量并更好遵循物理規(guī)律。

多模態(tài)生成

SLAM-AAC: Enhancing Audio Captioning with Paraphrasing Augmentation and CLAP-Refine through LLMs

“SLAM-AAC”通過(guò)高性能模型、創(chuàng)新的數(shù)據(jù)增強(qiáng)和解碼策略,顯著提升了音頻字幕生成的性能。該項(xiàng)工作是開(kāi)源項(xiàng)目“SLAM-LLM”的一部分,積極推動(dòng)多模態(tài)大模型技術(shù)的創(chuàng)新與發(fā)展,促進(jìn)全球研究者的技術(shù)交流與合作。

5d6cc210-3163-11f0-afc8-92fbcf53809c.png

工作簡(jiǎn)介:盡管目前音頻預(yù)訓(xùn)練模型與大語(yǔ)言模型(LLMs)的發(fā)展為自動(dòng)音頻描述(AAC)提供了更強(qiáng)的音頻理解和文本生成能力,但如何高效對(duì)齊多模態(tài)特征并利用有限數(shù)據(jù)仍是關(guān)鍵問(wèn)題。因此,我們提出SLAM-AAC,通過(guò)兩階段創(chuàng)新策略優(yōu)化AAC:首先,借鑒機(jī)器翻譯中的回譯方法,擴(kuò)展Clotho數(shù)據(jù)集的文本多樣性,緩解數(shù)據(jù)稀缺的問(wèn)題;其次在推理階段引入即插即用的CLAP-Refine方法,從多個(gè)束搜索生成的文本描述中選擇與音頻最匹配的描述。實(shí)驗(yàn)表明,SLAM-AAC在Clotho V2和AudioCaps數(shù)據(jù)集上顯著超越主流模型,該工作為小規(guī)模音頻-文本數(shù)據(jù)下的AAC提供了可擴(kuò)展解決方案,使其有可能用于其他多模態(tài)生成任務(wù)。

ICASSP (International Conference on Acoustics, Speech and Signal Processing) 即國(guó)際聲學(xué)、語(yǔ)音與信號(hào)處理會(huì)議,是IEEE(電氣電子工程師協(xié)會(huì))主辦的全世界最大的,也是最全面的信號(hào)處理及其應(yīng)用方面的頂級(jí)會(huì)議,在國(guó)際上享有盛譽(yù)并具有廣泛的學(xué)術(shù)影響力。2025年度ICASSP會(huì)議主題是 “Celebrating Signal Processing”,旨在慶祝信號(hào)處理領(lǐng)域的卓越成就與創(chuàng)新突破。

長(zhǎng)期以來(lái),思必馳深度融入國(guó)內(nèi)外學(xué)術(shù)前沿陣地,在 ICASSP、INTERSPEECH、ACL、EMNLP、AAAI 等頂尖學(xué)術(shù)大會(huì)上屢創(chuàng)佳績(jī),持續(xù)輸出高質(zhì)量科研成果。思必馳-上海交大聯(lián)合實(shí)驗(yàn)室通過(guò)一系列高水準(zhǔn)論文,展現(xiàn)出在人工智能語(yǔ)音語(yǔ)言關(guān)鍵技術(shù)領(lǐng)域的深度探索與重大突破,為行業(yè)發(fā)展注入強(qiáng)勁動(dòng)力。思必馳堅(jiān)定科研與產(chǎn)業(yè)應(yīng)用密切結(jié)合,也將繼續(xù)探索科技成果的應(yīng)用轉(zhuǎn)化。

作為專業(yè)的對(duì)話式人工智能平臺(tái)型企業(yè),思必馳具有源頭技術(shù)創(chuàng)新和應(yīng)用創(chuàng)新的能力,自2022年7月獲國(guó)家科技部批準(zhǔn)建設(shè)“語(yǔ)言計(jì)算國(guó)家新一代人工智能開(kāi)放創(chuàng)新平臺(tái)”以來(lái),接連于2023-2024年獲批組建蘇州市、江蘇省、長(zhǎng)三角三級(jí)創(chuàng)新聯(lián)合體,并于2025年攜手上海交通大學(xué)、蘇州大學(xué),牽頭組建“江蘇省語(yǔ)言計(jì)算及應(yīng)用重點(diǎn)實(shí)驗(yàn)室”,成為國(guó)家人工智能戰(zhàn)略科技力量的重要組成部分。

思必馳承擔(dān)了包括國(guó)家重點(diǎn)研發(fā)計(jì)劃、國(guó)家發(fā)改委“互聯(lián)網(wǎng)+”重大工程和人工智能創(chuàng)新發(fā)展工程、國(guó)家工信部人工智能與實(shí)體經(jīng)濟(jì)深度融合項(xiàng)目、長(zhǎng)三角科技創(chuàng)新共同體聯(lián)合攻關(guān)計(jì)劃項(xiàng)目等十余項(xiàng)國(guó)家級(jí)、省部級(jí)項(xiàng)目,展現(xiàn)出卓越的科研實(shí)力與項(xiàng)目落地能力。

思必馳深耕語(yǔ)音語(yǔ)言領(lǐng)域,憑借自主研發(fā)的核心技術(shù)多次在國(guó)際研究機(jī)構(gòu)評(píng)測(cè)中奪得冠軍;曾三度斬獲國(guó)內(nèi)人工智能最高獎(jiǎng)“吳文俊獎(jiǎng)”,榮獲中國(guó)專利優(yōu)秀獎(jiǎng),以及信通院車載智能語(yǔ)音交互系統(tǒng)最高級(jí)別認(rèn)證等重要榮譽(yù)。技術(shù)創(chuàng)新能力備受全球矚目,被高盛全球人工智能報(bào)告列為關(guān)鍵參與者,也被Gartner評(píng)為東亞五大明星AI公司之一。

截至2024年年底,思必馳擁有近100項(xiàng)全球獨(dú)創(chuàng)技術(shù),已授權(quán)知識(shí)產(chǎn)權(quán)1597件,其中已授權(quán)發(fā)明專利633項(xiàng),參與了71項(xiàng)國(guó)家/行業(yè)/團(tuán)體標(biāo)準(zhǔn),獲得23項(xiàng)國(guó)家級(jí)的產(chǎn)品認(rèn)證。近期,大模型人機(jī)對(duì)話技術(shù)創(chuàng)新與產(chǎn)業(yè)賦能發(fā)展提速,思必馳堅(jiān)持自主的大模型技術(shù)路線,即“構(gòu)建可靠性優(yōu)先的1+N分布式智能體系統(tǒng):1 個(gè)中樞大模型+ N 個(gè)垂域模型及全鏈路交互組件組成全功能系統(tǒng)”,以任務(wù)型交互為核心,結(jié)合智能硬件感知優(yōu)勢(shì),構(gòu)建垂域大模型和中樞大模型系統(tǒng),服務(wù)企業(yè)客戶。

聲明:本文內(nèi)容及配圖由入駐作者撰寫(xiě)或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點(diǎn)僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場(chǎng)。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問(wèn)題,請(qǐng)聯(lián)系本站處理。 舉報(bào)投訴
  • 音頻
    +關(guān)注

    關(guān)注

    29

    文章

    3040

    瀏覽量

    83422
  • 信息處理
    +關(guān)注

    關(guān)注

    0

    文章

    36

    瀏覽量

    10216
  • 思必馳
    +關(guān)注

    關(guān)注

    4

    文章

    337

    瀏覽量

    15322

原文標(biāo)題:ICASSP2025蘇州衛(wèi)星會(huì)議|思必馳-上海交大聯(lián)合實(shí)驗(yàn)室12篇論文將于語(yǔ)音技術(shù)頂會(huì)現(xiàn)場(chǎng)交流

文章出處:【微信號(hào):思必馳,微信公眾號(hào):思必馳】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評(píng)論

    相關(guān)推薦
    熱點(diǎn)推薦

    上海交大聯(lián)合實(shí)驗(yàn)室研究成果入選兩大頂級(jí)會(huì)議

    近日,計(jì)算語(yǔ)言學(xué)與自然語(yǔ)言處理領(lǐng)域全球頂級(jí)會(huì)議ACL 2025及語(yǔ)音研究領(lǐng)域旗艦會(huì)議INTERSPEECH 2025相繼公布論文錄用結(jié)果。
    的頭像 發(fā)表于 07-11 16:24 ?169次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與<b class='flag-5'>上海交大</b><b class='flag-5'>聯(lián)合</b><b class='flag-5'>實(shí)驗(yàn)室</b>研究成果入選兩大頂級(jí)會(huì)議

    愛(ài)普生與南山電子晶體電路評(píng)估聯(lián)合測(cè)試實(shí)驗(yàn)室成立

    2025年6月,愛(ài)普生電子元器件事業(yè)部總經(jīng)理程偉民率隊(duì)親臨江蘇南山電子工業(yè)有限公司,為“愛(ài)普生-南山晶體電路評(píng)估聯(lián)合測(cè)試實(shí)驗(yàn)室”授牌。該實(shí)驗(yàn)室的正式運(yùn)營(yíng),標(biāo)志著愛(ài)普生和南山電子邁入了更
    的頭像 發(fā)表于 07-07 17:50 ?260次閱讀

    蘇州大學(xué)校長(zhǎng)一行到訪參觀交流

    近日,蘇州大學(xué)校長(zhǎng)張橋教授一行蒞臨進(jìn)行調(diào)研,雙方圍繞學(xué)科基地建設(shè)、人才培養(yǎng)等關(guān)鍵領(lǐng)域展開(kāi)深入交流。
    的頭像 發(fā)表于 06-26 15:11 ?344次閱讀

    宣布,再獲新一輪融資

    電子發(fā)燒友網(wǎng)綜合報(bào)道 6月23日,宣布,在年初5億元融資后,近日又完成一筆新融資,主
    的頭像 發(fā)表于 06-26 01:09 ?2986次閱讀

    AI辦公本助力政企數(shù)字化轉(zhuǎn)型

    近期,針對(duì)辦公場(chǎng)景和職場(chǎng)人群,推出的自主品牌AI辦公本,已完成對(duì)中國(guó)交通建設(shè)集團(tuán)(簡(jiǎn)
    的頭像 發(fā)表于 06-16 09:29 ?393次閱讀

    上海交大聯(lián)合實(shí)驗(yàn)室論文入選ICML 2025

    ICML(International Conference on Machine Learning)是機(jī)器學(xué)習(xí)領(lǐng)域的頂級(jí)學(xué)術(shù)會(huì)議之一,由國(guó)際機(jī)器學(xué)習(xí)學(xué)會(huì)(IMLS)主辦,中國(guó)計(jì)算機(jī)學(xué)會(huì)認(rèn)定為A類
    的頭像 發(fā)表于 06-16 09:23 ?649次閱讀
    <b class='flag-5'>思</b><b class='flag-5'>必</b><b class='flag-5'>馳</b>與<b class='flag-5'>上海交大</b><b class='flag-5'>聯(lián)合</b><b class='flag-5'>實(shí)驗(yàn)室</b>兩<b class='flag-5'>篇</b><b class='flag-5'>論文</b>入選ICML <b class='flag-5'>2025</b>

    AI辦公本亮相京東直播間

    近日,董事長(zhǎng)、CEO高始興與IOT事業(yè)部首席產(chǎn)品官馬斌斌現(xiàn)身「京東3C數(shù)碼采銷」直播
    的頭像 發(fā)表于 06-09 11:10 ?521次閱讀

    出席語(yǔ)言計(jì)算技術(shù)創(chuàng)新專題研討會(huì)

    近日,與東南大學(xué)蘇州校區(qū)聯(lián)合舉辦語(yǔ)言計(jì)算技術(shù)創(chuàng)新專題研討暨校企合作洽談會(huì)。
    的頭像 發(fā)表于 04-17 15:42 ?282次閱讀

    亮相北京InfoComm China 2025

    400家頂尖科技品牌,攜會(huì)議辦公產(chǎn)品驚艷亮相(展位號(hào):MA6-01),用AI科技帶來(lái)顛覆性會(huì)議辦公體驗(yàn)。
    的頭像 發(fā)表于 04-16 16:39 ?574次閱讀

    江蘇省領(lǐng)導(dǎo)蒞臨調(diào)研考察

    近日,江蘇省委常委、省委宣傳部部長(zhǎng)徐纓一行蒞臨蘇州進(jìn)行調(diào)研,受到董事長(zhǎng)兼CEO高始興
    的頭像 發(fā)表于 03-24 16:32 ?484次閱讀

    入選國(guó)家級(jí)專精特新“小巨人”企業(yè)

    憑借深厚的技術(shù)積累、卓越的創(chuàng)新能力以及穩(wěn)健的市場(chǎng)表現(xiàn),成功入選2024年工信部第六批國(guó)家級(jí)專精特新“小巨人”企業(yè)名單。近日,2025年蘇州工業(yè)園區(qū)新型工業(yè)化推進(jìn)會(huì)議順利舉行,會(huì)上
    的頭像 發(fā)表于 01-08 16:32 ?863次閱讀

    奧拓電子吳涵渠董事長(zhǎng)受邀出席上海交大活動(dòng)

    的合作,一同創(chuàng)立了“智能視訊聯(lián)合實(shí)驗(yàn)室”。作為上海交大杰出的校友,奧拓電子吳涵渠董事長(zhǎng)受邀出席了本次活動(dòng),并在會(huì)上發(fā)表演講。同時(shí),通過(guò)路演活動(dòng)對(duì)交大的優(yōu)秀創(chuàng)業(yè)項(xiàng)目有了更深入的了解。
    的頭像 發(fā)表于 12-10 16:10 ?498次閱讀

    AI辦公本Turbo重磅發(fā)布

    近日,AI辦公本新品發(fā)布會(huì)如約而至,IOT事業(yè)部首席產(chǎn)品官馬斌斌詳細(xì)介紹了
    的頭像 發(fā)表于 10-31 14:23 ?1501次閱讀

    10月份大事件盤點(diǎn)

    日前,省科技廳黨組書(shū)記、廳長(zhǎng)徐光輝一行在進(jìn)行調(diào)研。董事長(zhǎng)、CEO高始興,副總裁李春梅
    的頭像 發(fā)表于 10-30 15:01 ?679次閱讀

    上海交大電院與奧拓電子共建智能視訊聯(lián)合實(shí)驗(yàn)室

    7月23日上午,上海交通大學(xué)電子信息與電氣工程學(xué)院與深圳市奧拓電子股份有限公司共建的“智能視訊聯(lián)合實(shí)驗(yàn)室”在奧拓電子總部正式揭牌成立,上海交大電院黨委書(shū)記蘇躍增、院長(zhǎng)關(guān)新平、奧拓電子董
    的頭像 發(fā)表于 07-29 14:45 ?759次閱讀