一個(gè)通用的自適應(yīng)prompt方法,突破了零樣本學(xué)習(xí)的瓶頸
為了解決這個(gè)問(wèn)題,這篇研究提出了一種Universal Self-adaptive Promptin....

探索ChatGPT的信息抽取能力
通過(guò)人工檢查ChatGPT的回復(fù),發(fā)現(xiàn)ChatGPT傾向于識(shí)別比標(biāo)注的跨度更長(zhǎng)的sapn,以更接近人....

State of GPT:大神Andrej揭秘OpenAI大模型原理和訓(xùn)練過(guò)程
你可以看到,Llama 的參數(shù)數(shù)量大概是 650 億。現(xiàn)在,盡管與 GPT3 的 1750 億個(gè)參數(shù)....

和ChatGPT相關(guān)的所有評(píng)估可能都不做數(shù)了!
不幸的是,我們對(duì) ChatGPT 和許多其他封閉式 LM 背后的細(xì)節(jié)幾乎一無(wú)所知:架構(gòu)、epoch、....

大模型LLM領(lǐng)域,有哪些可以作為學(xué)術(shù)研究方向?
隨著全球大煉模型不斷積累的豐富經(jīng)驗(yàn)數(shù)據(jù),人們發(fā)現(xiàn)大模型呈現(xiàn)出很多與以往統(tǒng)計(jì)學(xué)習(xí)模型、深度學(xué)習(xí)模型、甚....

ETH提出RecurrentGPT實(shí)現(xiàn)交互式超長(zhǎng)文本生成
RecurrentGPT 則另辟蹊徑,是利用大語(yǔ)言模型進(jìn)行交互式長(zhǎng)文本生成的首個(gè)成功實(shí)踐。它利用 C....

ChatGPT背后的大模型技術(shù)
由于ChatGPT可以適用于非常多的任務(wù),很多人認(rèn)為 AI 已經(jīng)迎來(lái)拐點(diǎn)。李開(kāi)復(fù)將此前的 AI 定義....

調(diào)教LLaMA類(lèi)模型沒(méi)那么難,LoRA將模型微調(diào)縮減到幾小時(shí)
最近幾個(gè)月,ChatGPT 等一系列大語(yǔ)言模型(LLM)相繼出現(xiàn),隨之而來(lái)的是算力緊缺日益嚴(yán)重。雖然....

“AI教父”Geoffrey Hinton:智能進(jìn)化的下一個(gè)階段
十年來(lái),人工智能領(lǐng)域的眾多驚人突破背后都離不開(kāi)深度學(xué)習(xí),它是使得ChatGPT、AlphaGo等得以....
大型語(yǔ)言模型能否捕捉到它們所處理和生成的文本中的語(yǔ)義信息
? 大型語(yǔ)言模型能否捕捉到它們所處理和生成的文本中的語(yǔ)義信息?這一問(wèn)題在計(jì)算機(jī)科學(xué)和自然語(yǔ)言處理領(lǐng)域....

基于實(shí)體和動(dòng)作時(shí)空建模的視頻文本預(yù)訓(xùn)練
摘要 盡管常見(jiàn)的大規(guī)模視頻-文本預(yù)訓(xùn)練模型已經(jīng)在很多下游任務(wù)取得不錯(cuò)的效果,現(xiàn)有的模型通常將視頻或者....

硬件算法協(xié)同設(shè)計(jì)
在本文中,將探討了transformer高效訓(xùn)練方法,從存儲(chǔ)效率、硬件算法協(xié)同設(shè)計(jì)和計(jì)算效率三個(gè)角度....

上交清華提出中文大模型的知識(shí)評(píng)估基準(zhǔn)C-Eval,輔助模型開(kāi)發(fā)而非打榜
首先,把一個(gè)模型調(diào)成一個(gè)對(duì)話機(jī)器人這件事情并不難,開(kāi)源界已經(jīng)有了類(lèi)似于 Alpaca, Vicuna....

Meta AI重磅推出LIMA!媲美GPT-4、無(wú)需RLHF就能對(duì)齊!
天下人苦“對(duì)齊”久矣!要讓預(yù)訓(xùn)練語(yǔ)言模型的響應(yīng)和特定任務(wù)和用戶(hù)偏好對(duì)齊,動(dòng)輒需要百萬(wàn)示例數(shù)據(jù)集上的i....

GPT-4 的模型結(jié)構(gòu)和訓(xùn)練方法
在 GPT-4 的發(fā)布報(bào)道上,GPT-4 的多模態(tài)能力讓人印象深刻,它可以理解圖片內(nèi)容給出圖片描述,....

邱錫鵬團(tuán)隊(duì)提出具有內(nèi)生跨模態(tài)能力的SpeechGPT,為多模態(tài)LLM指明方向
大型語(yǔ)言模型(LLM)在各種自然語(yǔ)言處理任務(wù)上表現(xiàn)出驚人的能力。與此同時(shí),多模態(tài)大型語(yǔ)言模型,如 G....

基于統(tǒng)計(jì)頻率的 baseline 方法
場(chǎng)景圖是一種結(jié)構(gòu)表示,它將圖片中的對(duì)象表示為節(jié)點(diǎn),并將它們的關(guān)系表示為邊。

LLM底座模型:LLaMA、Palm、GLM、BLOOM、GPT結(jié)構(gòu)對(duì)比
使用RMSNorm(即Root Mean square Layer Normalization)對(duì)輸....

國(guó)內(nèi)大模型爭(zhēng)霸賽,你最看好哪家?
而最近,中文通用大模型基準(zhǔn)(SuperCLUE)評(píng)測(cè)公布了最新結(jié)果,GPT-4 遙遙領(lǐng)先,而國(guó)內(nèi)成績(jī)....

WebCPM:首個(gè)聯(lián)網(wǎng)支持中文問(wèn)答開(kāi)源模型
WebCPM 是面壁智能自研大模型工具學(xué)習(xí)引擎 BMTools 的首個(gè)成功實(shí)踐,其特點(diǎn)在于其信息檢索....

如何使用FasterTransformer進(jìn)行單機(jī)及分布式模型推理
最近幾個(gè)月,隨著ChatGPT的現(xiàn)象級(jí)表現(xiàn),大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具....

中科院針對(duì)NL2Code任務(wù),調(diào)研了27個(gè)大模型,并指出5個(gè)重要挑戰(zhàn)
關(guān)于NL2Code的發(fā)展,其實(shí)和自然語(yǔ)言理解的發(fā)展類(lèi)似,一開(kāi)始,基本都是基于專(zhuān)家規(guī)則進(jìn)行算法設(shè)計(jì),但....

淺析推理加速引擎FasterTransformer
最近幾個(gè)月,隨著ChatGPT的現(xiàn)象級(jí)表現(xiàn),大模型如雨后春筍般涌現(xiàn)。而模型推理是抽象的算法模型觸達(dá)具....

基于自監(jiān)督邏輯歸納的模糊時(shí)序推理框架LECTER
理解自然語(yǔ)言中與事件相交織的時(shí)間概念是理解事件演化的重要內(nèi)容。人可以具有對(duì)事件的典型發(fā)生時(shí)間、發(fā)生頻....
