女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統消息
  • 評論與回復
登錄后你可以
  • 下載海量資料
  • 學習在線課程
  • 觀看技術視頻
  • 寫文章/發帖/加入社區
會員中心
創作中心

完善資料讓更多小伙伴認識你,還能領取20積分哦,立即完善>

3天內不再提示

13B模型全方位碾壓GPT-4?這背后有什么貓膩

智能感知與物聯網技術研究所 ? 來源:未知 ? 2023-11-20 09:15 ? 次閱讀

你的測試集信息在訓練集中泄漏了嗎?


一個參數量為 13B 的模型竟然打敗了頂流 GPT-4?就像下圖所展示的,并且為了確保結果的有效性,這項測試還遵循了 OpenAI 的數據去污方法,更關鍵的是沒有發現數據污染的證據。

如果你細細查看圖中的模型,發現只要帶有「rephraser」這個單詞,模型性能都比較高。
這背后到底有何貓膩?原來是數據污染了,即測試集信息在訓練集中遭到泄漏,而且這種污染還不易被檢測到。盡管這一問題非常關鍵,但理解和檢測污染仍然是一個開放且具有挑戰性的難題。
現階段,去污最常用的方法是 n-gram 重疊和嵌入相似性搜索:N-gram 重疊依賴于字符串匹配來檢測污染,是 GPT-4、PaLM 和 Llama-2 等模型常用方法;嵌入相似性搜索使用預訓練模型(例如 BERT)的嵌入來查找相似且可能受到污染的示例。
然而,來自 UC 伯克利、上海交通大學的研究表明測試數據的簡單變化(例如,改寫、翻譯)就可以輕松繞過現有的檢測方法。他們并將測試用例的此類變體稱為「改寫樣本(Rephrased Samples)」。
下面演示了 MMLU 基準測試中的改寫樣本。結果證明,如果訓練集中包含此類樣本,13B 模型可以達到極高的性能 (MMLU 85.9)。不幸的是,現有的檢測方法(例如,n-gram 重疊、嵌入相似性)無法檢測到這種污染。比如嵌入相似性方法很難將改寫的問題與同一主題(高中美國歷史)中的其他問題區分開來。

通過類似的改寫技術,本文在廣泛使用的編碼和數學基準測試中觀察到一致的結果,例如 HumanEval 和 GSM-8K(如文章開頭圖中所示)。因此,能夠檢測此類改寫樣本變得至關重要。
接下來,我們看看這項研究是如何進行的。


  • 論文地址:https://arxiv.org/pdf/2311.04850.pdf

  • 項目地址:https://github.com/lm-sys/llm-decontaminator#detect


論文介紹
文中表示,大模型(LLM)在快速發展的同時,關于測試集污染的問題被越來越多的重視起來,很多人對公共基準的可信度表示擔憂。
為了解決這一問題,有些人采用傳統的去污方法如字符串匹配(例如,n-gram 重疊)來刪除基準數據,但這些操作還遠遠不夠,因為對測試數據進行一些簡單的更改(例如,改寫、翻譯)就可以輕松繞過這些凈化措施。
更重要的是,如果不消除測試數據的這種更改,13B 模型很容易過度擬合測試基準并實現與 GPT-4 相當的性能。他們在 MMLU、GSK8k 和 HumanEval 等基準測試中驗證了這些觀察結果。
同時為了解決這些日益增長的風險,本文還提出了一種更為強大的基于 LLM 的去污方法 LLM decontaminator,并將其應用于流行的預訓練和微調數據集,結果表明,本文提出的 LLM 方法在刪除改寫樣本方面明顯優于現有方法。
這一做法也揭露了一些先前未知的測試重疊(test overlap)。例如,在 RedPajamaData-1T 和 StarCoder-Data 等預訓練集中,本文發現 HumanEval 基準有 8-18% 重疊。此外,本文還在 GPT-3.5/4 生成的合成數據集中發現了這種污染,這也說明了在 AI 領域存在潛在的意外污染風險。
本文希望,社區在使用公共基準時采取更強有力的凈化方法,并呼吁社區積極開發新的一次性測試(one-time exams)案例來準確評估模型。
改寫樣本
本文的目標是調查訓練集中包含測試集的簡單變化是否會影響最終的基準性能,并將測試用例的這種變化稱為「改寫樣本」。實驗中考慮了基準的各個領域,包括數學、知識和編碼。示例 1 是來自 GSM-8k 的改寫樣本,其中有 10-gram 重疊無法檢測到,修改后和原始文本保持相同的語義。

基準污染具有不同的形式,因此改寫技術存在一些細微的差異。對于基于文本的基準,本文在不改變語義的情況下改寫測試用例,例如通過重新排列詞序或用同義術語替換;對于基于代碼的基準測試,本文改變編碼風格、命名方式等。
如下所示,算法 1 中針對給定的測試集提出了一種簡單的算法。該方法可以幫助測試樣本逃避檢測。

接下來本文提出了一種新的污染檢測方法,可以準確地從相對于基準的數據集中刪除改寫樣本。
具體而言,本文引入了 LLM decontaminator。首先,對于每個測試用例,它使用嵌入相似度搜索來識別具有最高相似度的 top-k 訓練項,之后通過 LLM(例如 GPT-4)評估每一對是否相同。這種方法有助于確定數據集中有多少改寫樣本。
圖 4 展示了不同污染以及不同檢測方法的維恩圖。

實驗
在第 5.1 節中,實驗證明了在改寫樣本上訓練的模型可以取得顯著的高分,在三個廣泛使用的基準(MMLU、HumanEval 和 GSM-8k)中實現與 GPT-4 相當的性能,這表明改寫樣本應被視為污染,應從訓練數據中刪除。在第 5.2 節中,本文根據 MMLU/HumanEval 中改寫樣本評估不同的污染檢測方法。在第 5.3 節中,本文將 LLM decontaminator 應用于廣泛使用的訓練集并發現以前未知的污染。
接下來我們看看一些主要結果。
改寫樣本污染基準
如表 2 所示,在改寫樣本上訓練的 Llama-2 7B 和 13B 在 MMLU 上取得顯著的高分,從 45.3 到 88.5。這表明經過改寫的樣本可能會嚴重扭曲基準數據,應被視為污染。

本文還對 HumanEval 測試集進行了改寫,并將其翻譯成五種編程語言:C、JavaScript、Rust、Go 和 Java。結果顯示,在改寫樣本上訓練的 CodeLlama 7B 和 13B 在 HumanEval 上可以取得極高的分數,分別從 32.9 到 67.7 以及 36.0 到 81.1。相比之下,GPT-4 在 HumanEval 上只能達到 67.0。

下表 4 取得了同樣的效果:

對檢測污染方法的評估
如表 5 所示,除 LLM decontaminator 外,所有其他檢測方法都會引入一些誤報。改寫和翻譯的樣本都不會被 n-gram 重疊檢測到。使用 multi-qa BERT,嵌入相似性搜索被證明對翻譯樣本完全無效。

數據集污染情況
表 7 顯示了每個訓練數據集中不同基準的數據污染百分比。

LLM decontaminator 揭示了 79 個自改寫樣本的實例,占 MATH 測試集的 1.58%。示例 5 是 MATH 訓練數據中 MATH 測試的改寫示例。




原文標題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。 舉報投訴
  • 物聯網
    +關注

    關注

    2927

    文章

    45875

    瀏覽量

    387963

原文標題:13B模型全方位碾壓GPT-4?這背后有什么貓膩

文章出處:【微信號:tyutcsplab,微信公眾號:智能感知與物聯網技術研究所】歡迎添加關注!文章轉載請注明出處。

收藏 人收藏

    評論

    相關推薦
    熱點推薦

    芯片、模型生態分散,無問芯穹、沐曦、壁仞談國產算力瓶頸破局之道

    ,而GPT-4之后的一段時間里,無論是OpenAI發布的新模型,還是其他大模型,整體算法能力進入了放緩甚至是停滯的階段。 夏立雪認為,其中,表面上看是大
    的頭像 發表于 07-07 11:14 ?5330次閱讀
    芯片、<b class='flag-5'>模型</b>生態分散,無問芯穹、沐曦、壁仞談國產算力瓶頸破局之道

    OpenAI簡化大模型選擇:薩姆·奧特曼制定路線圖

    前的技術環境下,大模型被廣泛應用于各種聊天機器人中,其中OpenAI的ChatGPT就是一個典型的例子。然而,對于大多數用戶來說,選擇最適合自己需求的AI模型卻并非易事。OpenAI目前提供了多種模型供用戶選擇,其中包括能夠快速
    的頭像 發表于 02-18 09:12 ?420次閱讀

    OpenAI即將發布GPT-4.5與GPT-5

    GPT-4.5將在未來幾周內率先亮相,它將是OpenAI通用GPT-4模型的繼承者。這款新的算法在技術上進行了諸多優化和升級,旨在為用戶提供更加精準、高效的AI服務。 而在GPT-4
    的頭像 發表于 02-13 13:43 ?570次閱讀

    OpenAI即將推出GPT-5模型

    先進技術,其中包括備受矚目的o3工具。通過整合這些技術,GPT-5模型將實現更加強大的功能和性能。 值得一提的是,GPT-5模型將被廣泛應用于OpenAI的聊天機器人ChatGPT以及
    的頭像 發表于 02-13 11:21 ?522次閱讀

    OpenAI報告GPT-4o及4o-mini模型性能下降,正緊急調查

    近日,全球領先的AI研究機構OpenAI發布了一份事故報告,引起了業界的廣泛關注。報告中指出,OpenAI目前正面臨GPT-4o和4o-mini兩款重要模型性能下降的問題。 據Ope
    的頭像 發表于 01-23 10:22 ?771次閱讀

    如何在邊緣端獲得GPT4-V的能力:算力魔方+MiniCPM-V 2.6

    GPT4-V的能力:MiniCPM-V 2.6 。 MiniCPM-V 2.6是MiniCPM-V系列最新、性能最佳的模型,基于SigLip-400M和Qwen2-7B構建,共8B參數
    的頭像 發表于 01-20 13:40 ?528次閱讀
    如何在邊緣端獲得<b class='flag-5'>GPT4</b>-V的能力:算力魔方+MiniCPM-V 2.6

    訊飛星火大模型技術進展及落地

    訊飛星火4.0 Turbo重磅發布,七大核心能力全面超過GPT-4 Turbo,數學和代碼能力超越GPT-4o,國內外中英文14項主流測試集中訊飛星火4.0 Turbo實現9項第一。大模型的產業藍圖正在徐徐展開,AI日益進入場景
    的頭像 發表于 10-27 15:50 ?2055次閱讀

    Llama 3 與 GPT-4 比較

    隨著人工智能技術的飛速發展,我們見證了一代又一代的AI模型不斷突破界限,為各行各業帶來革命性的變化。在這場技術競賽中,Llama 3和GPT-4作為兩個備受矚目的模型,它們代表了當前AI領域的最前
    的頭像 發表于 10-27 14:17 ?1039次閱讀

    科大訊飛發布訊飛星火4.0 Turbo:七大能力超GPT-4 Turbo

    超過GPT-4 Turbo,數學能力和代碼能力更是超過了Open AI最新一代GPT模型GPT-4o。此外,其效率相對提升50%。
    的頭像 發表于 10-24 11:39 ?931次閱讀

    OpenAI 推出 GPT-4o mini 取代GPT 3.5 性能超越GPT 4 而且更快 API KEY更便宜

    OpenAI推出了GPT-4o mini模型,用來取代GPT-3.5.這是目前市場上最具成本效益的小模型。 ? 該模型在MMLU上得分為82
    的頭像 發表于 07-21 10:20 ?1594次閱讀
    OpenAI 推出 <b class='flag-5'>GPT-4</b>o mini 取代<b class='flag-5'>GPT</b> 3.5 性能超越<b class='flag-5'>GPT</b> <b class='flag-5'>4</b> 而且更快 API KEY更便宜

    OpenAI揭秘CriticGPT:GPT自進化新篇章,RLHF助力突破人類能力邊界

    OpenAI近期震撼發布了一項革命性成果——CriticGPT,一個基于GPT-4深度優化的新型模型,其獨特之處在于能夠自我提升,助力未來GPT模型的訓練效率與質量躍升至新高度。這一創
    的頭像 發表于 07-02 10:19 ?999次閱讀

    OpenAI推出新模型CriticGPT,用GPT-4自我糾錯

    基于GPT-4模型——CriticGPT,這款模型專為捕獲ChatGPT代碼輸出中的錯誤而設計,其獨特的作用在于,讓人們能夠用GPT-4來查找GP
    的頭像 發表于 06-29 09:55 ?782次閱讀

    OpenAl推出新模型GPT-4幫人類訓練GPT-4

    行業芯事行業資訊
    電子發燒友網官方
    發布于 :2024年06月28日 11:36:11

    OpenAI API Key獲取:開發人員申請GPT-4 API Key教程

    ? OpenAI的GPT-4模型因其卓越的自然語言理解和生成能力,成為了許多開發者的首選工具。獲取GPT-4 API Key并將其應用于項目,如開發一個ChatGPT聊天應用,不僅是實踐人工智能技術
    的頭像 發表于 06-24 17:40 ?3644次閱讀
    OpenAI API Key獲取:開發人員申請<b class='flag-5'>GPT-4</b> API Key教程

    國內直聯使用ChatGPT 4.0 API Key使用和多模態GPT4o API調用開發教程!

    API Key、配置環境、并編寫調用代碼。 GPT-4o模型: GPT-4o(GPT-4優化版)是OpenAI開發的一款高級語言模型。與其
    的頭像 發表于 06-08 00:33 ?6869次閱讀
    國內直聯使用ChatGPT 4.0 API Key使用和多模態<b class='flag-5'>GPT4</b>o API調用開發教程!