女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

用《圣經》做訓練數據集,打造語言風格轉換工具

DPVg_AI_era ? 來源:未知 ? 作者:李倩 ? 2018-11-01 09:24 ? 次閱讀
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

達特茅斯學院的研究人員為了提高計算機模型對文本風格的轉換能力,竟然將目光投向了《圣經》!研究表明,不同版本的《圣經》行文風格迥異,使用不同版本的《圣經》作為訓練數據集,訓練出的算法可以將書面文本轉換成內容相同,但行文風格迥異的新文本。

為了尋找改進計算機文本翻譯質量的靈感,達特茅斯學院的研究人員向《圣經》尋求幫助和指導。結果發現,使用各種版本的《圣經》訓練的算法可以將書面作品轉換成針對不同受眾的不同風格的譯文。

目前市面上可用的多語種互譯的網絡工具有很多。但行文風格和樣式轉換工具,即文本的語種相同,但轉換行文風格的工具出現的速度則要慢得多。在某種程度上講,由于難以獲得所需的大量訓練數據,開發這類轉換工具的研究遭遇了困難。因此,研究團隊想到在《圣經》中汲取靈感。

來自達特茅斯學院的研究團隊發現,《圣經》除了為遍布全球的許多人提供精神上的指引之外,還能提供一個“大型的、以前尚未開發的對齊平行文本數據集”。《圣經》每個版本都包含超過31000節經文,研究人員用這些經文為機器學習訓練集生成了超過150萬個源經文和目標經文的專門配對。

該研究論文已發表在Royal Society Open Science期刊上。文中表示,這不是首個為文字風格轉換而創建的并行數據集。但卻是第一個使用《圣經》的數據集。過去這類數據集使用的其他文本,比如莎士比亞作品、維基百科條目之類,所能提供的數據集要么比現在小得多,要么不適合學習風格轉換的任務。

“英文版《圣經》有許多不同的行文風格,使其成為風格轉換的完美源文本。”達特茅斯大學學生、本論文的第一作者Keith Carlson說。

由于《圣經》的文本已經全面索引化,對不同版本的《圣經》文本的組織是可預測的,消除了用自動化方式匹配相同文本可能引起的對齊錯誤的風險。

“圣經是一個'神圣的'數據集,可以用來研究這項任務,”達特茅斯計算機科學教授丹尼爾·洛克莫爾說。 “幾個世紀以來,人類一直在執行組織圣經文本的任務,我們的信仰不可能基于不太可靠的對齊算法。”

為了定義研究的“風格”,研究人員參考了句子長度、被動或主動語音的使用,以及可能導致文本具有不同程度的簡潔或形式的用詞選擇。

根據這項研究的結果:“不同的措辭可能會傳達不同程度的禮貌度或對讀者的熟悉程度,顯示關于作者的不同文化信息,使文本對某些人群更容易理解。”

該團隊使用了34種風格獨特的圣經版本,其語言復雜程度從“詹姆斯國王版”到“基礎英語圣經”。研究人員使用這些文本作為兩種算法的輸入,一種是名為“摩西”的統計機器翻譯系統,另一種是常用于機器翻譯的神經網絡框架“Seq2Seq”。

雖然研究團隊使用了不同版本的《圣經》來訓練計算機代碼,但最終可以開發出能夠為不同受眾轉換任何書面文本風格的系統。例如可以從“Moby Dick”中選擇英語,并將其風格轉換成適合年輕讀者、非英語母語人士或其他多種受眾團體中的不同版本。

“文本簡化只是一種特定類型的風格轉換。更廣泛地說,我們開發的系統旨在生成與原文具有相同含義的文本,但會用不同的文字進行表述。”卡爾森說。

達特茅斯學院在計算機科學領域有著悠久的創新歷史。“人工智能”(AI)一詞最初就是在1956年達特茅斯學院召開AI研究學科的會議期間誕生的。該校其他相關研究還包括BASIC語言的設計,這是第一個通用和可訪問的編程語言,以及為現代操作系統做出貢獻的“達特茅斯時間共享”系統。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 機器學習
    +關注

    關注

    66

    文章

    8501

    瀏覽量

    134576
  • 數據集
    +關注

    關注

    4

    文章

    1224

    瀏覽量

    25440

原文標題:用《圣經》做訓練數據集,達特茅斯學院完美打造語言風格轉換工具

文章出處:【微信號:AI_era,微信公眾號:新智元】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏
加入交流群
微信小助手二維碼

掃碼添加小助手

加入工程師交流群

    評論

    相關推薦
    熱點推薦

    harmony-utils之TempUtil,溫度轉換工具

    harmony-utils之TempUtil,溫度轉換工具類 harmony-utils 簡介與說明 [harmony-utils] 一款功能豐富且極易上手的HarmonyOS工具庫,借助眾多
    的頭像 發表于 06-26 00:50 ?56次閱讀

    使用AICube導入數據點創建后提示數據不合法怎么處理?

    重現步驟 data目錄下 labels.txt只有英文 **錯誤日志** 但是使用示例的數據可以完成訓練并部署
    發表于 06-24 06:07

    數據下載失敗的原因?

    數據下載失敗什么原因太大了嗎,小的可以下載,想把大的下載去本地訓練報錯網絡錯誤 大的數據多大?數據
    發表于 06-18 07:04

    PanDao應用:確定和轉換透鏡公差

    不同的標準(如采用MIL標準而不是ISO10110標準)。此外,圖紙中的關鍵參數可能偶爾存在缺失。 針對此類復雜場景,PanDao提供免費的專業光學轉換工具,當前涵蓋以下核心功能模塊: 可以在下方找到專業光學轉換工具入口:
    發表于 06-04 08:47

    NXP eIQ Time Series Studio 工具使用攻略(九)-數據標簽

    其中"Data Labeling",數據標簽工具使用戶能夠通過可視化界面將相應的數據標簽(如電弧或無電弧)應用于當前數據圖形的不同部分,從而對導入的原始
    的頭像 發表于 05-22 09:51 ?807次閱讀
    NXP eIQ Time Series Studio <b class='flag-5'>工具</b>使用攻略(九)-<b class='flag-5'>數據</b>標簽

    請問如何在imx8mplus上部署和運行YOLOv5訓練的模型?

    。我在 yo tflite 中轉換模型并嘗試在 tensorflow 腳本上運行模型,但它不起作用。 如何在 imx8mplus 上運行 YOLOv5 模型? 在 imx8mplus 上運行任何其他對象檢測模型的方法是否支持更快的幀速率和易于接口?此外,我還需要在我的自定義數據
    發表于 03-25 07:23

    PaddleNLP為GPT-2模型制作FineWeb二進制預訓練數據

    ,使用PaddleNLP將FineWeb數據集中文本形式的數據,經過分詞化(Tokenize),轉換為大語言模型能直接使用的二進制數據,以便
    的頭像 發表于 03-21 18:24 ?1644次閱讀
    <b class='flag-5'>用</b>PaddleNLP為GPT-2模型制作FineWeb二進制預<b class='flag-5'>訓練</b><b class='flag-5'>數據</b><b class='flag-5'>集</b>

    是否可以輸入隨機數據來生成INT8訓練后量化模型?

    無法確定是否可以輸入隨機數據來生成 INT8 訓練后量化模型。
    發表于 03-06 06:45

    騰訊公布大語言模型訓練新專利

    近日,騰訊科技(深圳)有限公司公布了一項名為“大語言模型的訓練方法、裝置、計算機設備及存儲介質”的新專利。該專利的公布,標志著騰訊在大語言模型訓練領域取得了新的突破。 據專利摘要顯示,
    的頭像 發表于 02-10 09:37 ?397次閱讀

    請問有沒有不在linux上對.pt模型向.kmodel轉換的教程呢?

    的文章 但是里面很多參數以及.npy的數據我不知道怎么填寫及處理。 2、還有一個問題,現在yolo有一個obb模塊可以檢測物體的傾斜角度,請問這個模塊訓練出來的模型可以部署在k2
    發表于 02-08 08:56

    ODX診斷數據轉換工具 - DDC

    INTEWORK-DDC (Diagnostic Database Convertor) 是將診斷調查問卷轉換為標準ODX(2.2.0)數據庫的工具。DDC工具可以將易于溝通交流的Ex
    的頭像 發表于 12-31 11:22 ?541次閱讀
    ODX診斷<b class='flag-5'>數據</b>庫<b class='flag-5'>轉換工具</b> - DDC

    云端AI開發者工具怎么

    云端AI開發者工具通常包括代碼編輯器、模型訓練平臺、自動化測試工具、代碼管理工具等。這些工具不僅降低了AI開發的門檻,還極大地提高了開發效率
    的頭像 發表于 12-05 13:31 ?558次閱讀

    ChatGPT:怎樣打造智能客服體驗的重要工具

    ChatGPT作為智能對話生成模型,可以幫助打造智能客服體驗的重要工具。以下是一些方法和步驟:1.數據收集和準備:收集和整理與客服相關的數據,包括常見問題、回答示例、客戶對話記錄等。這
    的頭像 發表于 11-01 11:12 ?438次閱讀
    ChatGPT:怎樣<b class='flag-5'>打造</b>智能客服體驗的重要<b class='flag-5'>工具</b>?

    AI大模型的訓練數據來源分析

    學術機構、政府組織或企業公開發布,涵蓋了各種類型的數據,如圖像、文本、音頻、視頻等。例如: ImageNet :一個廣泛用于圖像識別任務的大規模圖像數據。 Common Crawl :提供了大量的網頁抓取
    的頭像 發表于 10-23 15:32 ?3632次閱讀

    如何訓練自己的AI大模型

    訓練AI大模型之前,需要明確自己的具體需求,比如是進行自然語言處理、圖像識別、推薦系統還是其他任務。 二、數據收集與預處理 數據收集 根據任務需求,收集并準備好足夠的
    的頭像 發表于 10-23 15:07 ?4949次閱讀