女人自慰AV免费观看内涵网,日韩国产剧情在线观看网址,神马电影网特片网,最新一级电影欧美,在线观看亚洲欧美日韩,黄色视频在线播放免费观看,ABO涨奶期羡澄,第一导航fulione,美女主播操b

0
  • 聊天消息
  • 系統(tǒng)消息
  • 評論與回復(fù)
登錄后你可以
  • 下載海量資料
  • 學(xué)習(xí)在線課程
  • 觀看技術(shù)視頻
  • 寫文章/發(fā)帖/加入社區(qū)
會員中心
創(chuàng)作中心

完善資料讓更多小伙伴認(rèn)識你,還能領(lǐng)取20積分哦,立即完善>

3天內(nèi)不再提示

聊聊小公司如何做大模型

深度學(xué)習(xí)自然語言處理 ? 來源:李文舉說@知乎 ? 2024-02-21 11:28 ? 次閱讀

在小公司做大模型,這個事情是可以的。

筆者在小公司,做了一年多的大模型。先列一下成績單:

開源了目前業(yè)界可能是分類較完整(50類)、數(shù)量較大(1100+萬)的SFT數(shù)據(jù)集:匠數(shù)科技大模型sft數(shù)據(jù)集[1]

通過SFT、DPO、RLHF等技術(shù)訓(xùn)練了領(lǐng)域?qū)懽髂P汀崪y下來,在該領(lǐng)域?qū)懽魃希瑥娪趪鴥?nèi)大多數(shù)的閉源模型。

如何在小公司做大模型,筆者總結(jié),有如下幾點:

1、至少要有基礎(chǔ)的硬件條件。

如果雙卡3090都沒有,那是比較難的。實在沒有,可以說服老板,租機器訓(xùn)練。

2、要有選擇跟進(jìn)模型訓(xùn)練、部署的最新進(jìn)展,選主流、走大道。

技術(shù)迭代太快,人力有限的情況下,不可能什么都跟進(jìn)的。比如部署,市面上的部署方案很多了,但是主流的就是vllm,所以,集中精力將vllm搞懂用好,就夠了,其他的可以了解,但不用重點關(guān)注。

再比如各種訓(xùn)練技術(shù),經(jīng)過驗證好用的也就是那么幾個。看起來過于旁門左道的論文,可以先放放,讓子彈飛一會兒再說。提一點,DPO確實是小公司對齊訓(xùn)練的福音。

3、要堅持開放交流,多加群。

圍繞llm,有很多社群,也有很多活動,可以選擇性參加,但是切記切記,不要過分沉溺其中,以為這樣就能緊跟時代前沿,掌握最新趨勢了。假裝學(xué)到很多,是很有害滴。記得前段時間不是有個什么架構(gòu),號稱取代transformer嗎?鋪天蓋地的宣傳,筆者當(dāng)時也聽了作者的線上分享。現(xiàn)在呢?自己連個像樣的模型都沒搞出來。純純浪費太多精力。相信時間會證明一切。

4、要針對業(yè)務(wù)場景解決問題,不要陷入llm崇拜。

這種現(xiàn)象典型的就是不是llm的工作就提不起神,不想做。實話實說,這是病,得治。筆者根據(jù)業(yè)務(wù)問題需求,開源的cutword[2],就是為了替代jieba的新一代分詞工具,同時,ner類型和效果都是目前開源中一流的,也收獲了大家的認(rèn)可。

解決問題才是關(guān)鍵。不能有了llm這個錘子,看什么都是釘子。具體問題具體分析的能力很重要。

審核編輯:黃飛

聲明:本文內(nèi)容及配圖由入駐作者撰寫或者入駐合作網(wǎng)站授權(quán)轉(zhuǎn)載。文章觀點僅代表作者本人,不代表電子發(fā)燒友網(wǎng)立場。文章及其配圖僅供工程師學(xué)習(xí)之用,如有內(nèi)容侵權(quán)或者其他違規(guī)問題,請聯(lián)系本站處理。 舉報投訴
  • 大模型
    +關(guān)注

    關(guān)注

    2

    文章

    3033

    瀏覽量

    3839

原文標(biāo)題:如何在小公司做大模型

文章出處:【微信號:zenRRan,微信公眾號:深度學(xué)習(xí)自然語言處理】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。

收藏 人收藏

    評論

    相關(guān)推薦
    熱點推薦

    中國2家AI公司連發(fā)新模型趕超OpenAI

    )本身就是國內(nèi)兩家備受關(guān)注的人工智能大模型創(chuàng)業(yè)公司;一些國外網(wǎng)友在貼吧留言表示中國AI追趕速度越來越快。 在技術(shù)社區(qū)Hacker News,有一位開發(fā)者感嘆“中國初創(chuàng)公司已展現(xiàn)出趕超美國人工智能
    的頭像 發(fā)表于 01-23 17:00 ?912次閱讀

    SAR ADC如何做好布線布局?

    SAR ADC如何做好布線布局?
    發(fā)表于 12-17 08:27

    ADC7846如何做到使用手指觸摸有效?

    ADC7846芯片觸摸轉(zhuǎn)換時候,不準(zhǔn),能否通過配置,如何做到使用手指觸摸有效?
    發(fā)表于 12-04 06:47

    從零開始訓(xùn)練一個大語言模型需要投資多少錢?

    一,前言 ? 在AI領(lǐng)域,訓(xùn)練一個大型語言模型(LLM)是一個耗時且復(fù)雜的過程。幾乎每個做大型語言模型(LLM)訓(xùn)練的人都會被問到:“從零開始,訓(xùn)練大語言模型需要多久和花多少錢?”雖然
    的頭像 發(fā)表于 11-08 14:15 ?714次閱讀
    從零開始訓(xùn)練一個大語言<b class='flag-5'>模型</b>需要投資多少錢?

    聊聊std::move函數(shù)和std::forward函數(shù)

    今天我們聊聊Modern cpp的兩個非常重要的概念移動語義和轉(zhuǎn)發(fā)引用。
    的頭像 發(fā)表于 11-05 16:58 ?879次閱讀

    華秋商城器件做EDA封裝

    EDA相樣封裝,尤其小公司及創(chuàng)業(yè)公司研發(fā)人員。 3: 華秋的PCB 及SMT業(yè)務(wù)是個亮點。比競爭對手做得好。點贊!
    發(fā)表于 10-26 09:59

    工程行業(yè)中如何做到低碳甚至零碳

    低碳的生活方式越來越多地融入我們的日常習(xí)慣當(dāng)中。但是在工程行業(yè)中如何做到低碳甚至零碳呢?
    的頭像 發(fā)表于 10-14 10:31 ?756次閱讀

    如何利用大型語言模型驅(qū)動的搜索為公司創(chuàng)造價值

    ,IlanaGolbinBlumenfeld和JacobT.Wilson等三位PwC合伙人,在《如何利用大型語言模型驅(qū)動的搜索為公司創(chuàng)造價值》書中,探討大型語言模型(LL
    的頭像 發(fā)表于 10-13 08:07 ?354次閱讀
    如何利用大型語言<b class='flag-5'>模型</b>驅(qū)動的搜索為<b class='flag-5'>公司</b>創(chuàng)造價值

    谷景科普工字電感的電感量如何做大

    在電子制造領(lǐng)域,工字電感因其出色的性能而備受青睞,尤其是在需要高儲能和低阻抗的應(yīng)用中。隨著各行業(yè)的發(fā)展,大家對工字電感的電感量提出了更高的要求。為了滿足客戶對增大工字電感感量的需求,我們要從多個角度進(jìn)行考量和改進(jìn)。 1.優(yōu)化繞線方法:改進(jìn)線圈的纏繞方式可以增加電感量,例如通過更緊密的繞線來減小線圈的總長度,從而增加電感量 。 2.選擇高磁導(dǎo)率的磁芯材料:使用導(dǎo)磁率更高的磁芯材料可以提高電感量。磁芯材料的選擇對
    的頭像 發(fā)表于 09-30 14:32 ?494次閱讀

    從“可用”到“好用”,百度智能云如何做大模型的“超級工廠”?

    如果說,過去兩三年大模型處于造錘子階段,那么今年,更多的則是考驗釘釘子的能力,面對各類業(yè)務(wù)場景大模型是否能夠有的放矢、一擊必中,為千行百業(yè)深度賦能。 ? 當(dāng)前市場上,已經(jīng)有200多把這樣的錘子在瘋狂
    的頭像 發(fā)表于 09-26 18:18 ?495次閱讀
    從“可用”到“好用”,百度智能云<b class='flag-5'>如何做大</b><b class='flag-5'>模型</b>的“超級工廠”?

    用LM3886T做大功率輸出時,發(fā)現(xiàn)輸出信號的波形不平滑,為什么?

    最近我用LM3886T做大功率輸出時,發(fā)現(xiàn)輸出信號的波形不平滑,特別是在輸入信號比較小的情況下。 附件是我的輸出波形,希望能點建議,如何才能變的比較平滑。 謝謝!
    發(fā)表于 09-18 08:29

    新火種AI 大模型公司紛紛被收編!創(chuàng)始人們逐漸變成了“最討厭的自己”?

    最近,國內(nèi)大模型公司的融資潮正在如火如荼的進(jìn)行著,各大公司紛紛收獲了融資,正在攜手邁進(jìn)“200億估值”的門檻。 不過,與國內(nèi)大模型領(lǐng)域的繁花似錦相比,國外的大
    的頭像 發(fā)表于 08-21 15:05 ?478次閱讀
    新火種AI 大<b class='flag-5'>模型</b><b class='flag-5'>公司</b>紛紛被收編!創(chuàng)始人們逐漸變成了“最討厭的自己”?

    Hugging Face科技公司推出SmolLM系列語言模型

    7月22日最新資訊,Hugging Face科技公司在語言模型領(lǐng)域再創(chuàng)新高,正式推出了SmolLM系列——一款專為適應(yīng)多樣計算資源而設(shè)計的緊湊型語言模型家族。該系列包含三個版本,分別搭載了1.35億、3.6億及17億參數(shù),旨在以
    的頭像 發(fā)表于 07-23 16:35 ?611次閱讀

    如何做好大功率環(huán)形電感選型工作

    電子發(fā)燒友網(wǎng)站提供《如何做好大功率環(huán)形電感選型工作.docx》資料免費下載
    發(fā)表于 07-04 17:08 ?1次下載

    潞晨訓(xùn)推一體機,畫出大模型到企業(yè)的一條龍路線圖

    企業(yè)做大模型,如何才能不折騰?
    的頭像 發(fā)表于 06-14 09:41 ?1950次閱讀
    潞晨訓(xùn)推一體機,畫出大<b class='flag-5'>模型</b>到企業(yè)的一條龍路線圖