面向機器學習的知識產權保護可以圍繞以下五方面展開:訓練集保護、訓練參數保護、架構保護、機器學習系統保護、模型防復制保護。
訓練集保護
為特定的機器學習應用創建出色的訓練集是一項耗時耗財的工作。盡管在典型環境中,侵權人無法直接訪問此訓練集,但是如果通過某些方式獲得了訪問權限,那么復制訓練集輕而易舉。知識產權法律的作用正在于此。
如果訓練集所有者的主要營業地點位于歐盟地區,那么訓練集將受到數據庫權利的保護。但是,這一權利僅對同樣位于該司法管轄區的侵權者具有法律效力。
而更加困難的是能否針對機器學習訓練集主張版權。訓練集并不是一件藝術作品。其目的通常是確保數據適合用例。根據版權法的規定,針對主題創建合適的數據集并不是一項創造性活動。但是,仍然可以主張版權的一個方面是對數據進行分類的方式。如果類別是通過創造性過程(例如,“美麗/丑陋”、“強/弱”、“大/小”)進行篩選的,那么就可以認為通過創造性標記方式創造的訓練集受到版權保護。基于事實要素(例如“貓/狗”、“交通信號燈/路燈/停車標志”)的分類不具備創造性,因此不受版權保護。
在某些應用領域,訓練集是通過模擬或其他人工手段生成的。有另一種觀點認為,這樣的訓練集可以受到版權保護,因為所選的模擬或生成方式可以看作是一種創造性選擇。但是,這一觀點從未在法庭上得到檢驗。
通常,公司會對其訓練集嚴格保密。這種做法十分合理,因為使用機器學習模型無需共享訓練集。避免訓練集被惡意復制,并對需要擁有訓練集的各方施加嚴格的契約約束似乎是最好的方法。
訓練參數保護訓練集和模型只是機器學習系統寶貴價值的一部分。驅動訓練算法的參數也同樣十分寶貴:選擇正確的訓練參數需要經驗豐富的工程師花費大量時間和精力。
對于創建機器學習系統所用的訓練參數集,版權保護是最有用的。如果數據科學家通過創造性工作來選擇合適的訓練參數,從而確定這些參數,那么最終得到的參數集就很有可能受到版權保護。但是,如果是通過詳盡搜索(例如評估文獻中提出的許多選項)或算法過程發現的訓練參數,則不受版權保護。這一原則同樣適用于使用這些訓練參數和指定訓練集生成的模型。
數據庫權利可能不太適用于參數集,因為數據庫權利的一個標準是集合中的各個元素必須系統地或有條理地排列。參數集很難符合這個標準。
架構保護系統架構是機器學習系統的基礎。其設計是確保系統正常運行的關鍵要素。在完成訓練后,架構就將投入使用。這類系統包含兩部分:定義架構的圖形和實現架構的軟件。圖形符合保護的條件與模型參數相同。從理論上講,架構的創新硬件層面可以申請專利;但是由于這一領域的大多數創新基本只與軟件有關,因此硬件專利不太現實。實施訓練和/或推理的軟件通常會受到版權保護,因為軟件主要是通過創造性工作設計而成的。
機器學習系統保護理論上,使用精心選擇的參數集編程并基于特定訓練集訓練的電腦系統屬于可獲專利的主題范圍。但是,歐洲和美國的現行判例法要求系統的設計目標是執行現實世界中的任務,例如駕駛汽車或識別現實世界中的圖像。對于以更抽象的方式運行的機器學習系統(例如,在現實世界中缺少特定用例的情況下,進行識別和/或分類),能否獲得專利仍未可知。
就像任何其他軟件一樣,機器學習系統的軟件一定可以受到版權保護。
機器學習系統的數據庫權利在理論上是有爭議的:爭議點在于數據集可通過模型和執行該模型的軟件進行搜索。但是,這一觀點從未在法庭上或法律文獻中得到檢驗。
模型防復制保護當機器學習系統在對公眾沒有契約或使用限制的情況下推出時,就可以使用某種獨特的方法來復制其功能。本質上,抄襲者使用一個未分類項目數據集,并將每個項目提交到機器學習系統。每個答案都仔細地記錄為抄襲者的數據集分類。從而獲得一個帶有標簽的數據集,用來訓練相似質量的模型。事實證明,即使數據集包含非問題域數據,并且目標系統和克隆系統的架構與模型參數不匹配,這一方法仍然有效。根據版權或數據庫法律的規定,暫時無法界定這種行為是否合法。原始機器學習系統中的數據集未被復制;只是利用了系統輸出,而且只用來標記另一個數據集。
如果數據集分類本身具有創造性,那么抄襲者可能會因為重復使用標簽而侵犯版權。即使只是復制和復用標簽以對完全獨立的數據集進行分類,也有可能侵犯版權。但是,這一觀點從未在法庭上得到檢驗。
舉證責任
發現侵權者和在法庭上證明侵權是兩件截然不同的事情。在知識產權訴訟案件中,舉證責任可能難以實現。一般而言,法院需要得到充分的證據來確信很有可能存在侵權。被指控的侵權人沒有義務提供相關證據。因此,如果需要的證據在侵權人的掌握之下,那么知識產權權利所有者就可能會遇到問題。一些司法管轄區允許扣押證據或要求當事方進行所謂的“透露”,但這并不能確保權利所有者得到所需證據。
根據版權法的規定,如果兩個物品非常相似,那么法院可以反轉舉證責任:侵權人必須證明其作品是獨立創作的。但是,這是法院針對特定事實分析的結果,權利所有者不應依賴于這一機制。
根據商業機密法的規定,權利所有者有時可以選擇要求法院對證據保密,或者讓獨立的一方(例如公證人)將證據與機密信息進行比較,而不必使機密成為公開法院記錄的一部分。
責任編輯:pj
-
數據庫
+關注
關注
7文章
3900瀏覽量
65766 -
機器學習
+關注
關注
66文章
8490瀏覽量
134077 -
電腦系統
+關注
關注
0文章
23瀏覽量
9635
發布評論請先 登錄
名單公布!【書籍評測活動NO.53】鴻蒙操作系統設計原理與架構
Alpine操作系統社區發布龍架構版本
基于risc-v架構的芯片與linux系統兼容性討論
深入理解 Llama 3 的架構設計
【「嵌入式Hypervisor:架構、原理與應用」閱讀體驗】+全文學習心得
【「嵌入式Hypervisor:架構、原理與應用」閱讀體驗】+第7-8章學習心得
【「大模型時代的基礎架構」閱讀體驗】+ 未知領域的感受
MES系統的功能、架構及應用價值

評論