1. 1800億參數,世界頂級開源大模型Falcon官宣!碾壓LLaMA 2,性能直逼GPT-4
原文:https://mp.weixin.qq.com/s/B3KycAYJ2bLWctvoWOAxHQ
一夜之間,世界最強開源大模型Falcon 180B引爆全網!
1800億參數,Falcon在3.5萬億token完成訓練,直接登頂Hugging Face排行榜。
基準測試中,Falcon 180B在推理、編碼、熟練度和知識測試各種任務中,一舉擊敗Llama 2。
2. Meta的Flamera頭顯對增強現實有了新的愿景
原文:https://mp.weixin.qq.com/s/UepWwW7D03_jISTsSmjwnAMeta的最新原型頭顯Flamera像是直接從科幻動作片中來的一樣,它在Siggraph 2023上引起了人們的注意 —— Flamera在那里獲得了令人垂涎的Best in Show獎。據悉,Flamera原型頭顯展示了接近人眼分辨率和全新的"透視"真實世界的技術。該原型或許為VR、MR和AR的未來鋪平了道路。頭顯原型展示的技術突破引發了人們的興趣和關注。Moor Insights&Strategy副總裁兼首席分析師Ansel Sag表示:“這絕對是我見過的質量最好的(增強現實)實現透視真實世界的全新方法。”
3. 騰訊混元大模型正式亮相,我們搶先試了試它的生產力
原文:https://mp.weixin.qq.com/s/xuk77KHJHhoh6kWkf-4AKg上個星期,國內首批大模型備案獲批,開始面向全社會開放服務,大模型正式進入了規模應用的新階段。在前期發布應用的行列中,有些科技巨頭似乎還沒有出手。很快到了 9 月 7 日,在 2023 騰訊全球數字生態大會上,騰訊正式揭開了混元大模型的面紗,并通過騰訊云對外開放。作為一個超千億參數的大模型,混元使用的預訓練語料超過兩萬億 token,憑借多項獨有的技術能力獲得了強大的中文創作能力、復雜語境下的邏輯推理能力,以及可靠的任務執行能力。
4. GitHub熱榜登頂:開源版GPT-4代碼解釋器,可安裝任意Python庫,本地終端運行
原文:https://mp.weixin.qq.com/s/TiSVeZOeWourVJ60yyyygwChatGPT的代碼解釋器,用自己的電腦也能運行了。剛剛有位大神在GitHub上發布了本地版的代碼解釋器,很快就憑借3k+星標并登頂GitHub熱榜。不僅GPT-4本來有的功能它都有,關鍵是還可以聯網。
- 3小時只能發50條消息
- 支持的Python模塊數量有限
- 處理文件大小有限制,不能超過100MB
- 關閉會話窗口之后,此前生成的文件會被刪除
結果是正確的!接下來就要進入重頭戲了,來看看這個代碼解釋器的聯網功能到底是不是噱頭:比如我們想看一下最近有什么新聞。更多的內容請點擊原文,謝謝。
5. ReVersion|圖像生成中的Relation定制化
原文:https://mp.weixin.qq.com/s/7W80wWf2Bj68MnC8NEV9cQ新任務:Relation Inversion今年,diffusion model和相關的定制化(personalization)的工作越來越受人們歡迎,例如DreamBooth,Textual Inversion,Custom Diffusion等,該類方法可以將一個具體物體的概念從圖片中提取出來,并加入到預訓練的text-to-image diffusion model中,這樣一來,人們就可以定制化地生成自己感興趣的物體,比如說具體的動漫人物,或者是家里的雕塑,水杯等等。現有的定制化方法主要集中在捕捉物體外觀(appearance)方面。然而,除了物體的外觀,視覺世界還有另一個重要的支柱,就是物體與物體之間千絲萬縷的關系(relation)。目前還沒有工作探索過如何從圖片中提取一個具體關系(relation),并將該relation作用在生成任務上。為此,我們提出了一個新任務:Relation Inversion。
論文:https://arxiv.org/abs/2303.13495代碼:https://github.com/ziqihuangg/ReVersion主頁:https://ziqihuangg.github.io/projects/reversion.html視頻:https://www.youtube.com/watch?v=pkal3yjyyKQDemo:https://huggingface.co/spaces/Ziqi/ReVersionReVersion框架作為針對Relation Inversion問題的首次嘗試,我們提出了ReVersion框架:
6. 神經網絡大還是小?Transformer模型規模對訓練目標的影響
原文:https://mp.weixin.qq.com/s/el_vtxw-54LVnuWzS1JYDw
論文鏈接:https://arxiv.org/abs/2205.1050501 TL;DR本文研究了 Transformer 類模型結構(configration)設計(即模型深度和寬度)與訓練目標之間的關系。結論是:token 級的訓練目標(如 masked token prediction)相對更適合擴展更深層的模型,而 sequence 級的訓練目標(如語句分類)則相對不適合訓練深層神經網絡,在訓練時會遇到 over-smoothing problem。在配置模型的結構時,我們應該注意模型的訓練目標。一般而言,在我們討論不同的模型時,為了比較的公平,我們會采用相同的配置。然而,如果某個模型只是因為在結構上更適應訓練目標,它可能會在比較中勝出。對于不同的訓練任務,如果沒有進行相應的模型配置搜索,它的潛力可能會被低估。因此,為了充分理解每個新穎訓練目標的應用潛力,我們建議研究者進行合理的研究并自定義結構配置。02 概念解釋下面將集中解釋一些概念,以便于快速理解:2.1 Training Objective(訓練目標)

- sequence level:
-
- classification 分類任務,作為監督訓練任務。簡單分類(Vanilla Classification)要求模型對輸入直接進行分類,如對句子進行情感分類,對圖片進行分類;而 CLIP 的分類任務要求模型將圖片與句子進行匹配。
- token level:(無監督)
-
- masked autoencoder:masked token 預測任務,模型對部分遮蓋的輸入進行重建
- next token prediction:對序列的下一個 token 進行預測
- 現有的 Transformer 模型在加深模型深度時會發生 over-smoothing 問題,這阻礙了模型在深度上的拓展。
- 相較于簡單分類訓練目標,MAE 的掩碼預測任務能夠緩解 over-smoothing。(進一步地,token 級別的訓練目標都能夠一定程度地緩解 over-smoothing)
- MAE 的現有模型結構繼承于機器翻譯任務上的最佳結構設置,不一定合理。
———————End———————
點擊閱讀原文進入官網
聲明:本文內容及配圖由入駐作者撰寫或者入駐合作網站授權轉載。文章觀點僅代表作者本人,不代表電子發燒友網立場。文章及其配圖僅供工程師學習之用,如有內容侵權或者其他違規問題,請聯系本站處理。
舉報投訴
-
RT-Thread
+關注
關注
32文章
1370瀏覽量
41523
原文標題:【AI簡報20230908期】正式亮相!打開騰訊混元大模型,全部都是生產力
文章出處:【微信號:RTThread,微信公眾號:RTThread物聯網操作系統】歡迎添加關注!文章轉載請注明出處。
發布評論請先 登錄
相關推薦
熱點推薦
AI與云端生產力結合應用場景及技術解析(2025)
AI與云端生產力結合應用場景及技術解析(2025) 一、核心技術架構? 云原生與智能算力網絡? 采用容器化、微服務等云原生技術實現應用敏捷開發與彈性擴展,支撐工業大模型訓練、城市級數據

騰訊元寶升級:深度思考模型“騰訊混元T1”全量上線
近日,騰訊元寶迎來了又一次重要更新,深度思考模型“騰訊混元T1”已全面上線。此次更新不僅進一步豐富了騰訊
DLP6500FLQ WIN11不顯示投影內容,Firmware里面內容全部都是×,為什么?
換了主機后,WIN11系統連接可以連接HDMI線,會被認定為外接顯示器。
但是另外一個USB口識別不出,打開GUI軟件后,在視頻模式和圖案模式都不能打開,Firmware里面內容全部都是
發表于 02-20 08:15
騰訊AI助手“騰訊元寶”重大更新:支持深度思考功能
近日,騰訊AI助手“騰訊元寶”再次迎來了重大更新,為用戶帶來了更加智能、高效的使用體驗。此次更新中,騰訊元寶新增了深度思考功能,這一功能由混
騰訊元寶AI產品更新,正式接入DeepSeek R1模型
近日,騰訊元寶AI產品在應用商店迎來了重要更新,正式接入了DeepSeek R1模型,并宣布該模型已聯網且以滿血狀態上線。這一更新標志著騰訊
騰訊混元3D AI創作引擎正式發布
近日,騰訊公司宣布其自主研發的混元3D AI創作引擎已正式上線。這一創新性的創作工具將為用戶帶來前所未有的3D內容創作體驗,標志著騰訊在
騰訊混元3D AI創作引擎正式上線
近日,騰訊公司宣布其自主研發的混元3D AI創作引擎已正式上線。這一創新性的創作工具,標志著騰訊在3D內容生成領域邁出了重要一步。
胡瀚接棒騰訊多模態大模型研發
騰訊的杰出科學家和混元大模型技術團隊的核心成員,曾在推動騰訊在人工智能領域的發展中發揮了重要作用。然而,去年11月,有消息稱劉威已從
騰訊混元大模型開源成績斐然,GitHub Star數近1.4萬
近日,在2024年12月24日舉辦的開放原子開發者大會暨首屆開源技術學術大會上,騰訊云副總裁、騰訊混元大模型負責人劉煜宏發表了重要演講。他強
騰訊混元文生圖登頂智源FlagEval評測榜首
近日,北京智源人工智能研究院(BAAI)發布了最新的FlagEval大模型評測排行榜,其中多模態模型評測榜單的文生圖模型引起了廣泛關注。結果顯示,騰訊
騰訊混元大模型上線并開源文生視頻能力
近日,騰訊宣布其混元大模型正式上線,并開源了一項令人矚目的能力——文生視頻。該大模型參數量高達130億,支持中英文雙語輸入,為用戶提供了更為
華為云徐峰:AI 賦能應用現代化,加速軟件生產力躍升
,分享了智能化應用的行業實踐,并發布了華為云在應用開發、運行、運維、集成領域的智能化新產品能力。 在主題為“ AI 賦能應用現代化,加速軟件生產力躍升論壇 ”的論壇上,徐峰首先介紹了 AI 軟件+應用領域將會成為

評論