Text-Generation-Inference(又稱 TGI)是 Hugging Face 今年早些時候啟動的一個項目,作為支持 Hugging Face Inference API 和后來的 Hugging Chat 上的 LLM 推理的內(nèi)部工具,旨在支持大型語言模型的優(yōu)化推理。自推出后,該項目迅速流行,并被 Open-Assistant 和 nat.dev 等其他開源項目采用。
近日,Hugging Face 宣布,在最新推出的 TGI v1.0 版本中,其開源許可證將從 Apache 2.0 改為 HFOIL 1.0。HFOIL 代表 Hugging Face Optimized Inference License,是 HuggingFace 專為優(yōu)化推理解決方案而設(shè)計的協(xié)議。Hugging Face 表示,HFOIL 并不是真正的開源許可證,雖然源代碼仍然可以訪問,但其增加了一項限制:要銷售基于 TGI 構(gòu)建的托管或托管服務(wù),需要單獨的協(xié)議。
為什么要更換許可證?
據(jù)悉,TGI 已成為 Hugging Face 商業(yè)產(chǎn)品(如推理端點)及其商業(yè)合作伙伴(如 Amazon SageMaker、Azure 機器學(xué)習(xí)和 IBM watsonx )的重要組成部分。而 Hugging Face 此次更換許可證也與其商業(yè)策略緊密相關(guān)。
根據(jù) Hugging Face 的說法,TGI 最初是一個為其內(nèi)部產(chǎn)品提供動力的項目,該公司將其視為商業(yè)解決方案的關(guān)鍵組成部分?!癟GI 并不是一個社區(qū)驅(qū)動的項目,而是一個可供社區(qū)廣泛訪問的生產(chǎn)解決方案。我們希望繼續(xù)公開建設(shè) TGI,并將繼續(xù)歡迎大家做出貢獻。但與 Transformers 和 Diffusers 等社區(qū)驅(qū)動的項目不同,TGI 專注于生產(chǎn)環(huán)境中的性能和穩(wěn)健性,目標是構(gòu)建商業(yè)產(chǎn)品?!?/p>
據(jù)悉,TGI 此前所有版本仍然在 Apache 2.0 下獲得許可,最后一個 Apache 2.0 版本是版本 0.9.4。
Hugging Face 表示,源代碼許可的這一變化對免費使用 TGI 的絕大多數(shù)社區(qū)用戶沒有影響,其推理端點客戶及商業(yè)合作伙伴的客戶也不會受到影響。但它將限制非合作云服務(wù)提供商在未請求許可的情況下提供 TGI v1.0+ 服務(wù)。
如果是 v1.0 之前的 TGI 現(xiàn)有用戶,當前的版本仍然是 Apache 2.0,可以不受限制地進行商業(yè)使用。
如果用戶將 TGI 用于個人用途或研究目的,則不受 HFOIL 1.0 的限制。
如果用戶將 TGI 作為內(nèi)部公司項目的一部分用于商業(yè)目的(不作為托管或托管服務(wù)出售給第三方),則也不受 HFOIL 1.0 限制。
如果將 TGI 集成到出售給客戶的托管或托管服務(wù)中,則考慮升級到 v1.0 及更高版本的許可證。
“開源是一個誤稱,它應(yīng)該是來源自由?!庇芯W(wǎng)友評價道。也有網(wǎng)友表示,“開源不應(yīng)過度限制我使用工具的方式。如果無法再將其嵌入到我銷售的產(chǎn)品中,則它是可用的源代碼,但不是開源的?!?/p>
有人提出,資產(chǎn)階級認為他們可以從公地獲取創(chuàng)新來建立帝國并壓迫群眾,至少應(yīng)該為這種特權(quán)付出代價。對此,有開發(fā)者表示,“FSF (自由軟件基金會)對此的回答是使用 AGPLv3,它在網(wǎng)絡(luò)訪問上限制了 Copyleft。”
AGPL v3 協(xié)議規(guī)定,除非獲得商業(yè)授權(quán),否則無論以何種方式修改或者使用代碼,都需要開源。開發(fā)者“kmeisthax”表示,“如果你唯一的目標就是阻止大型企業(yè)接觸您的代碼,那么當然可以使用這個許可證。但你也可以使用奇怪時髦的后現(xiàn)代許可證來做到這一點,這些許可證從技術(shù)上講不授予任何權(quán)利,很容易被用來限制 Copyleft 巨魔。但如果你只是想要公平且易于遵守的規(guī)則,那么該許可證就有問題?!薄癆GPLv3 僅對使用解釋性語言進行 Web 開發(fā)有意義,這樣可以輕松列出網(wǎng)站的代碼?!?/p>
“kmeisthax”進一步表示,“如果你想更嚴格,還有 OpenWatcom 許可證,它會在您使用軟件時觸發(fā) Copylef,所以沒有私人分叉。實際上,這不像 AGPLv3 那樣令人頭疼,你不需要允許通過網(wǎng)絡(luò)下載源代碼,您只需在某處發(fā)布您的修改即可。FSF 拒絕碰它,因為他們認為私人分叉是一項人權(quán)。”
“kmeisthax”認為,阻止“資產(chǎn)階級”從公地掠奪所有創(chuàng)新的問題在于,這樣做會使軟件脫離公地,這比 AGPLv3、SSPL 或 OpenWatcom 更糟。任何試圖這樣做的人都不是想保護公地,而是想加入資產(chǎn)階級。因為不允許你為他人托管軟件,這是專有世界的語言。專有軟件許可之所以如此有利可圖,主要是因為使用限制——它允許你查看每個用戶的錢包,并從中提取最大金額的資金。
延綿近半世紀的開源許可證 要為 AI 改變?
自由軟件與開源許可證自上世紀七、八十年代起曾經(jīng)歷演變以適應(yīng)代碼編程的需求。如今,它需要再次轉(zhuǎn)型來應(yīng)對 AI 模型帶來的新一波沖擊。
比如,ChatGPT 現(xiàn)在仍然使用的是開源代碼。特別是,分別由 Google 和 Facebook 開發(fā)的 TensorFlow 和 PyTorch 推動了 ChatGPT。這些框架為構(gòu)建和訓(xùn)練深度學(xué)習(xí)模型提供了必要的工具和庫。沒有它們,就沒有 ChatGPT。ChatGPT 另一個重要的開源部分就是 Hugging Face 的 Transformer,這是用于構(gòu)建最先進的機器學(xué)習(xí)模型的領(lǐng)先開源庫。
得益于開源,但 OpenAI 卻沒有將 ChatGPT 開源?!?OpenAI 本來是作為一家開源(這就是為什么我將其命名為‘Open’AI)、非盈利公司而創(chuàng)建的,目的是作為谷歌的制衡,但現(xiàn)在它實際上已經(jīng)成為一家閉源、利潤最大化的公司。由微軟控制。根本不是我想要的?!瘪R斯克曾批評道。
開源模型的流行也印證了大家對于 AI 模型開放的期盼。但實際上,基于版權(quán)法處理軟件代碼的自由軟件和開源許可證,并不適合支撐 AI 開源軟件之下的大語言模型(LLM)神經(jīng)網(wǎng)絡(luò)與數(shù)據(jù)集。而另一方面,相當規(guī)模的編程數(shù)據(jù)集長期基于自由軟件與開源代碼,因此必須采取措施、順應(yīng)轉(zhuǎn)變。有鑒于此,開放源碼倡議(OSI)執(zhí)行董事 Stefano Maffulli 等開源和 AI 領(lǐng)導(dǎo)者,努力尋求一種對雙方均有積極意義的新方式,希望將 AI 與開源許可證結(jié)合起來。
去年 J. Doe 等人(匿名)起訴了 GitHub。原告在美國加州北區(qū)法院控訴微軟、OpenAI 和 GitHub 通過其基于 AI 的商業(yè)系統(tǒng) OpenAI Codex 與 GitHub Copilot 竊取了開發(fā)者的開源代碼。原告方認為,“涉案”代碼幾乎就是直接從公共 GitHub 代碼倉庫中抓取的原始代碼副本,且未獲得開源許可承認。
目前案件仍在審理中,原告方修改了訴訟方向,包括指控被告違反《數(shù)字千年版權(quán)法》、違反合同(違反開源許可證)、存在不公平得利和不正當競爭行為,以及違反合同(違反 GitHub 政策中約定的銷售許可條款)。
這類麻煩困擾的不只有微軟。耶魯大學(xué)法學(xué)院網(wǎng)絡(luò)安全講師、耶魯大學(xué)隱私實驗室創(chuàng)始人 Sean O’Brien 認為,“很快就會出現(xiàn)與專利流氓類似的完整子產(chǎn)業(yè),但這一次將主要圍繞 AI 生成的成果。隨著越來越多作者使用 AI 驅(qū)動工具在專有許可之下發(fā)布代碼,這將建立起新的反饋循環(huán)。軟件生態(tài)系統(tǒng)將被專有代碼所污染,而這些代碼將成為‘有心之人’的索賠載體?!?/p>
德國研究員兼政治家 Felix Reda 等人則聲稱,一切 AI 生成的代碼都屬于公共產(chǎn)出。SmartEdgeLaw Group 創(chuàng)始成員之一、美國律師 Richard Santalesa 認為,這里其實存在合同法與版權(quán)法的雙重糾紛。Santalesa 認為,出售 AI 生成代碼的企業(yè)將“與所有其他知識產(chǎn)權(quán)一樣,將其交付的材料(包括 AI 生成代碼)視為自有財產(chǎn)?!倍差I(lǐng)域代碼和開源代碼的處理方式并不相同。
更重要的是,這還涉及數(shù)據(jù)集如何獲取許可這個宏觀問題。雖然很多開源許可證之下都涵蓋大量“開放”數(shù)據(jù)集,但并不足以徹底解決目前的尖銳沖突。
如今的我們正站在類似的十字路口上。TensorFlow、PyTorch 和 Hugging Face Hub 等 AI 程序在其開源許可證下運行良好,但其他新 AI 成果卻不知該如何走出自己的道路。數(shù)據(jù)集、模型、權(quán)重等并不完全適合傳統(tǒng)的版權(quán)模型。Maffulli 認為,技術(shù)社區(qū)應(yīng)當設(shè)計出一些更符合自身目標的新事物,而不能總是依賴于對已有規(guī)則的“魔改”。
Maffulli 解釋道,為軟件設(shè)計的開源許可證可能并不適合 AI 工件。例如,雖然 MIT 許可證強調(diào)的廣泛自由度在模型層面比較適用,但 Apache 或 GPl 等更復(fù)雜的許可證卻很可能引發(fā)問題。Maffulli 還強調(diào),將開源原則應(yīng)用于醫(yī)療保健等敏感領(lǐng)域同樣面臨著挑戰(zhàn)。在這些領(lǐng)域,關(guān)于數(shù)據(jù)訪問的法規(guī)已經(jīng)成為行業(yè)發(fā)展道路上的障礙。簡而言之,法律規(guī)定醫(yī)療數(shù)據(jù)不得開源。
與此同時,大多數(shù)大語言模型的數(shù)據(jù)集都屬于黑盒子,我們根本不知道其中到底有些什么。因此,正如電子前沿基金會(EFF)所言,我們最終陷入了“垃圾進、寶貝出”的茫然境地。為此,EFF 建議必須開放訓(xùn)練數(shù)據(jù)。
通過立法保護開源?
中國、歐盟、美國和英國等多國政府一直在努力開展 AI 監(jiān)管。而 Hugging Face、GitHub、EleutherAI、Creative Commons、LAION 和 Open Future 等六家開源 AI 利益相關(guān)方組成的聯(lián)盟正向歐盟立法者請愿,呼吁在設(shè)定歐盟 AI 法案(將成為歐盟 AI 法案的最終版本,也將是全球第一部全面的人工智能法)時保護開源創(chuàng)新。
在日前發(fā)布的政策文件《在歐盟 AI 法案中支持開源與開放科學(xué)》(Supporting Open Source and Open Science in the EU AI Act)當中,開源 AI 領(lǐng)導(dǎo)者們提出了“如何確保 AI 法案適用于開源”的相關(guān)建議,原則要求“確保開放式 AI 開發(fā)實踐不會面臨在結(jié)構(gòu)上不切實際的義務(wù),或者其他有礙技術(shù)發(fā)展的義務(wù)?!?/p>
根據(jù)這份文件,有利于閉源及專有 AI 開發(fā)(例如 OpenAI、Anthropic 和谷歌等頂尖 AI 廠商開發(fā)的模型)的“過于廣泛的義務(wù)”,“可能會對開放 AI 生態(tài)系統(tǒng)造成不利影響?!?/p>
Hugging Face 機器學(xué)習(xí)與社會事務(wù)負責人 Hacine Jernite 在采訪中表示,雖然政策文件的內(nèi)容相當豐富,但該聯(lián)盟想要強調(diào)的核心永遠是鼓勵創(chuàng)新?!拔覀冋J為,人們應(yīng)該能從各類基礎(chǔ)模型、組件間自由選擇,并根據(jù)需求隨意組合和匹配,這一點非常重要?!?/p>
此外,該聯(lián)盟還希望強調(diào)開源 AI 的重要性、甚至是必要性,認為監(jiān)管不應(yīng)阻礙開源 AI 的創(chuàng)新道路。Jernite 解釋道,“開放本身并不能保證負責任的開發(fā)態(tài)度。但是,開放性和透明度卻是負責任治理的必要前提。因此,開放性不是要躲避責任,而責任也不應(yīng)該妨礙開放發(fā)展。”
GitHub 高級政策經(jīng)理 Peter Cihon 指出,隨著歐盟理事會及之后的歐盟議會制定出 AI 法案草案,立法者們開始審視整個價值鏈、思考如何減輕其中由 AI 發(fā)展早期引發(fā)的風(fēng)險。
Cihon 在采訪中指出,“通過這一步驟,我們正加倍努力,確保法案不會在潛移默化中偏向于大企業(yè)、或者其他資源充足的 AI 參與者,而是將這份權(quán)利同樣交付給出于業(yè)余愛好的開源開發(fā)者、非營利性組織和學(xué)生??偠灾⒎ㄕ咭恢边^于關(guān)注特定的價值鏈和特定的模型,大多是 API 模型——而這種關(guān)注在開源背景下并不真正適用。”
-
AI
+關(guān)注
關(guān)注
87文章
34223瀏覽量
275389 -
源代碼
+關(guān)注
關(guān)注
96文章
2950瀏覽量
67868 -
機器學(xué)習(xí)
+關(guān)注
關(guān)注
66文章
8492瀏覽量
134089
原文標題:一場 AI 引發(fā)的開源革命迫在眉睫?Hugging Face 更改文本推理軟件許可證,不再“開源”
文章出處:【微信號:AI前線,微信公眾號:AI前線】歡迎添加關(guān)注!文章轉(zhuǎn)載請注明出處。
發(fā)布評論請先 登錄
四創(chuàng)電子獲得3821型一次監(jiān)視雷達許可證
Redis 再次開源!
Microchip推出MPLAB? XC統(tǒng)一編譯器許可證 更高效的管理多個許可證
Hugging Face推出最小AI視覺語言模型
DFRobot參加2024開放原子開發(fā)者大會及開放原子開放硬件許可證發(fā)布儀式

開放原子開放硬件許可證正式發(fā)布
開放原子與Eclipse兩基金會聯(lián)合發(fā)布EPL-2.0許可證中譯文
如何使用 Llama 3 進行文本生成
蘋果造車夢碎:自動駕駛測試許可撤銷,項目走向終結(jié)
針對在免許可證2.4GHz/5GHz頻段運行的SRD的CE法規(guī)

freebsd和linux哪個好用
NVIDIA全面轉(zhuǎn)向開源GPU內(nèi)核模塊

Hugging Face科技公司推出SmolLM系列語言模型
四創(chuàng)電子再獲氣象專用技術(shù)裝備許可證
CTA進網(wǎng)許可證的產(chǎn)品范圍指南

評論