昨天Meta AI+CMU這篇文章一出,twitter都炸了!
LIMA,只使用1000個(gè)精心挑選的樣本微調(diào)一個(gè) 65B LLaMa,無(wú)需RLHF,性能媲美甚至優(yōu)于GPT-4!
論文:LIMA: Less Is More for Alignment
地址:https://arxiv.org/pdf/2305.11206.pdf
天下人苦“對(duì)齊”久矣!要讓預(yù)訓(xùn)練語(yǔ)言模型的響應(yīng)和特定任務(wù)和用戶(hù)偏好對(duì)齊,動(dòng)輒需要百萬(wàn)示例數(shù)據(jù)集上的instruction tuning、以及最近從人類(lèi)反饋中進(jìn)行的強(qiáng)化學(xué)習(xí),才能實(shí)現(xiàn)ChatGPT級(jí)別的性能。
這篇文章旨在用簡(jiǎn)單的方法解決復(fù)雜的對(duì)齊問(wèn)題,作者提出表面對(duì)齊假說(shuō)(Superficial Alignment Hypothesis),將對(duì)齊視為一個(gè)簡(jiǎn)單的過(guò)程:學(xué)習(xí)與用戶(hù)交互的樣式或格式,來(lái)展示預(yù)訓(xùn)練期間就已經(jīng)獲得的知識(shí)和能力!
結(jié)果發(fā)現(xiàn),少量高質(zhì)量樣例上的簡(jiǎn)單微調(diào)就足以與當(dāng)今最先進(jìn)的技術(shù)競(jìng)爭(zhēng)!這也證明預(yù)訓(xùn)練過(guò)程的強(qiáng)大威力和重要性,遠(yuǎn)勝于大規(guī)模instruction tuning和強(qiáng)化學(xué)習(xí)!
實(shí)驗(yàn)設(shè)置
數(shù)據(jù)集來(lái)源:這1000個(gè)近似真實(shí)用戶(hù)提示和高質(zhì)量響應(yīng)的示例中,有750個(gè)來(lái)自Stack Exchange和wikiHow這樣的社區(qū)論壇,其余250個(gè)則是手動(dòng)編寫(xiě)。
微調(diào)的超參數(shù):使用AdamW進(jìn)行微調(diào),其中,權(quán)重衰減為0.1。沒(méi)有熱身步驟,初始學(xué)習(xí)率設(shè)置為,并線(xiàn)性地降至訓(xùn)練結(jié)束時(shí)的。批量大小設(shè)為32個(gè)示例(更小的模型為64個(gè)),長(zhǎng)度大于2048 token的文本將被裁剪。與以往的顯著不同是在殘差連接上應(yīng)用dropout,從底層的 開(kāi)始,線(xiàn)性升高到最后一層的 (更小的模型為 )。
基準(zhǔn)模型
實(shí)驗(yàn)將 LIMA 與五個(gè)基準(zhǔn)模型進(jìn)行比較:
(1)Alpaca 65B:將 LLaMa 65B 在 Alpaca 訓(xùn)練集中的 52,000 個(gè)樣例上進(jìn)行微調(diào);(2) OpenAI 的DaVinci003,經(jīng)過(guò) RLHF 訓(xùn)練的大語(yǔ)言模型;(3) 基于 PaLM 的 谷歌Bard;(4) Anthropic 的Claude, 52B 參數(shù),經(jīng)過(guò)從 AI 反饋進(jìn)行強(qiáng)化學(xué)習(xí) (Constitutional AI) 訓(xùn)練;(5) OpenAI 的GPT-4,經(jīng)過(guò) RLHF 訓(xùn)練,目前認(rèn)為最先進(jìn)的大語(yǔ)言模型。
結(jié)果
根據(jù)人類(lèi)偏好的實(shí)驗(yàn)結(jié)果,LIMA 的表現(xiàn)比 Alpaca 65B 和 DaVinci003 都要更好!盡管Alpaca 65B 的訓(xùn)練數(shù)據(jù)量比 LIMA 高52倍,而DaVinci003 采用了 RLHF,一種被認(rèn)為是更優(yōu)秀的對(duì)齊方法。
Bard 情況要好,在 42% 的時(shí)間產(chǎn)生了比 LIMA 更好的響應(yīng);然而,這也意味著至少58%的時(shí)間, LIMA 的表現(xiàn)和 Bard 相當(dāng)。
最后,雖然 Claude 和 GPT-4 通常比 LIMA 的表現(xiàn)更加出色,但很多情況下,LIMA 確實(shí)能產(chǎn)生更好的響應(yīng)。有些諷刺的是,即使是 GPT-4 也有19% 的時(shí)間會(huì)認(rèn)為 LIMA 的輸出更好。
我們來(lái)欣賞下LLaMa的出色表演。藍(lán)色文本為prompt,左邊是與訓(xùn)練集中示例相關(guān)的提示,中間是訓(xùn)練集中不存在的提示,右邊則是挑戰(zhàn)模型拒絕不安全行為。
數(shù)據(jù)質(zhì)量和多樣性更重要
為了證明LIMA (Less Is More for Alignment)這個(gè)少勝于多的觀點(diǎn),作者通過(guò)消融實(shí)驗(yàn)研究了訓(xùn)練數(shù)據(jù)的多樣性、質(zhì)量和數(shù)量對(duì)模型的影響。
結(jié)果發(fā)現(xiàn),數(shù)據(jù)質(zhì)量對(duì)生成質(zhì)量存在顯著影響,使用篩選過(guò)的數(shù)據(jù)集訓(xùn)練的模型與使用未經(jīng)過(guò)濾的數(shù)據(jù)源訓(xùn)練的模型之間存在0.5分差異。但是,令人驚訝的是,示例數(shù)量的加倍并不能改善響應(yīng)的質(zhì)量。這表明對(duì)齊的 scaling laws 不僅僅取決于數(shù)量,而在于保證質(zhì)量的同時(shí)提高提示的多樣性。
多輪對(duì)話(huà)
不過(guò),一個(gè)僅在1,000個(gè)單輪對(duì)話(huà)上進(jìn)行微調(diào)的模型能否從事多輪對(duì)話(huà)(Multi-Turn Dialogue)呢?
在零樣本上,LIMA的響應(yīng)出奇地連貫,并引用了前面對(duì)話(huà)的信息。但很明顯,這個(gè)模型正在超出分布范圍;在10次交流中有6次,LIMA在3個(gè)互動(dòng)之內(nèi)未能遵循提示。
為了提高對(duì)話(huà)能力,作者收集了30個(gè)多輪對(duì)話(huà)鏈。使用組合的1,030個(gè)示例對(duì)預(yù)訓(xùn)練的LLaMa模型進(jìn)行微調(diào),得到一個(gè)新版本的LIMA,并針對(duì)相同的提示進(jìn)行了10次實(shí)時(shí)對(duì)話(huà)。發(fā)現(xiàn)加入這30個(gè)示例后生成質(zhì)量顯著提升,優(yōu)質(zhì)響應(yīng)比例從45.2%提高到76.1%!
30個(gè)樣本的有限監(jiān)督就能調(diào)用模型的多輪對(duì)話(huà)能力,這也支持了作者提出的表面對(duì)齊假說(shuō),即:這些能力是在預(yù)訓(xùn)練期間學(xué)習(xí)的。
總結(jié)
作者在discussion部分指出了該方法的一系列問(wèn)題:比如構(gòu)建數(shù)據(jù)集示例需要巨大的腦力投入、難以擴(kuò)展,不如產(chǎn)品級(jí)別的模型穩(wěn)健等~
話(huà)雖如此,這篇研究證明了簡(jiǎn)單方法就有解決復(fù)雜對(duì)齊問(wèn)題的潛力。幾乎所有大語(yǔ)言模型中的知識(shí)都是在預(yù)訓(xùn)練期間學(xué)習(xí)的,教導(dǎo)模型產(chǎn)生高質(zhì)量輸出只需少量但精心的instructional tuning.
簡(jiǎn)單才是王道!
審核編輯 :李倩
-
語(yǔ)言模型
+關(guān)注
關(guān)注
0文章
558瀏覽量
10681 -
CMU
+關(guān)注
關(guān)注
0文章
21瀏覽量
15409 -
ChatGPT
+關(guān)注
關(guān)注
29文章
1588瀏覽量
8806
原文標(biāo)題:Meta AI 重磅推出LIMA!媲美GPT-4、無(wú)需RLHF就能對(duì)齊!
文章出處:【微信號(hào):zenRRan,微信公眾號(hào):深度學(xué)習(xí)自然語(yǔ)言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請(qǐng)注明出處。
發(fā)布評(píng)論請(qǐng)先 登錄
ChatGPT升級(jí) OpenAI史上最強(qiáng)大模型GPT-4發(fā)布
AIGC(GPT-4)賦能通信行業(yè)應(yīng)用白皮書(shū)
微軟GPT-4搜索引擎重大升級(jí) 新Bing開(kāi)放AI能力
一樣媲美GPT-4、Bard,Meta發(fā)布650億參數(shù)語(yǔ)言模型LIMA

人工通用智能的火花:GPT-4的早期實(shí)驗(yàn)
GPT-4已經(jīng)會(huì)自己設(shè)計(jì)芯片了嗎?

GPT-4催生的接口IP市場(chǎng)空間
GPT-4沒(méi)有推理能力嗎?

ChatGPT重磅更新 OpenAI發(fā)布GPT-4 Turbo模型價(jià)格大降2/3

AI觀察 | 今年最火的GPT-4,正在締造科幻版妙手仁心!

ChatGPT plus有什么功能?OpenAI 發(fā)布 GPT-4 Turbo 目前我們所知道的功能

評(píng)論