国产激情一区二区三区-国产精品人人做人人爽人人添-国产欧美精品一区二区色综合-国产一区二区三区成人欧美日韩在线观看

中文
英文 日文

談大模型“知識蒸餾”技術的著作權爭議——兼評DeepSeek被指控侵權事件

作者:呂政澤 王振寶 國浩律師事務所 瀏覽量:

引言:2025年初,由杭州深度求索人工智能基礎技術研究有限公司開發的生成式人工智能產品DeepSeek以其優越的性能、低廉的成本和開源策略迅速占領市場,轟動全球。但與此同時,OpenAI公司公開指責DeepSeek利用“知識蒸餾”技術侵犯了OpenAI公司的合法權利,對于OpenAI的侵權指控,理論界及實務界看法不一,本文將介紹“知識蒸餾”技術的工作原理,分析大模型“知識蒸餾”技術的著作權爭議,并對DeepSeek所涉侵權爭議提出看法。


Part01.

“知識蒸餾”的主要工作原理和侵權判斷路徑

技術角度而言,“知識蒸餾”屬于遷移學習的一種,主要原理可以總結為:首先選定已經較為成熟的“教師模型”(大模型),并在“教師模型”中輸入某一類別的內容,獲取大量“教師模型”的輸出結果后,通過技術手段總結“教師模型”所有輸出結果中的相似之處,并作為用于訓練“學生模型”(小模型)的語料[注1],從而使得“學生模型”繞開前期巨量的數據學習所消耗的經濟、時間成本,而就某一類別的內容取得與“教師模型”盡可能接近的輸出效果。從法律角度而言,“知識蒸餾”可以總結為:先使用他人的大模型產品而取得相關數據,繼而通過技術手段將已經取得的數據進行處理,最終將經處理的數據用于訓練自己的大模型產品?!爸R蒸餾”技術極大地降低了大模型產品的入場門檻,對提高市場上大模型產品的平均質量起到了巨大的作用。但對此有人指出,“知識蒸餾”抓取他人數據用于訓練自己的大模型產品并獲取商業利益,構成著作權侵權。

由上述,“知識蒸餾”并未通過直接接觸“教師模型”的內部參數,而僅僅是總結、處理“教師模型”在輸出層面的結果并用于訓練“學生模型”,因此“知識蒸餾”可能涉及的著作權爭議也只可能在于數據抓取這一行為的合法與否。筆者認為,“知識蒸餾”是否構成著作權侵權可以用三步法進行分析、評價。


Part02.

“知識蒸餾”著作權侵權判斷第一步——人工智能生成內容的可著作權性

判斷教師模型所輸出的內容能否被著作權法保護是論證“知識蒸餾”是否構成著作權侵權的一大前提,如果大模型生成的內容本身不能被《著作權法》所保護,那么“學生模型”抓取、處理“教師模型”所生成內容的行為就不會構成著作權侵權。事實上,關于人工智能生成內容的著作權屬性已經成為近年來理論界的熱點話題,學者觀點不一。但理論上而言,在我國《著作權法》的規制體系下,將人工智能視為人類的工具[注2],將人工智能生成內容類比于人類利用相機拍出的相片,進而認定人工智能生成內容的著作權由使用者合法享有是能夠成立的。而在司法實踐角度,雖然我國法院直接就人工智能生成內容是否能取得著作權的案例較少,但近年公開披露的案例中,法院大多傾向于認為:如果人工智能使用者在使用時能夠體現人類的創造性,且生成內容能夠在外觀上具有獨創性,則可以認為人工智能生成內容構成我國《著作權法》下的作品[注3]。

事實上,從目前市場中主流大模型產品的工作情況來看,現階段大模型產品輸出內容已經具備了類似于人類作品的獨創性。另外對于國內大模型產品蒸餾國外成熟產品這一糾紛形態,即便在如美國等對人工智能生成內容秉持較為嚴格態度、不輕易認可著作權性的國家,如果國外大模型廠商認為中國大模型廠商違法蒸餾而前往中國起訴,根據《中華人民共和國涉外民事法律關系適用法》第五十條的規定,也不會面對被否認可著作權性的困境。因此應當認為,按照中國法律,在不違反《著作權法》第五條規定的情況下,人工智能生成內容大概率能夠受到著作權法的保護。

美國則對人工智能生成內容的可著作權性持較為嚴格的態度。例如《美國版權局實踐概要》即明確禁止對人工智能創作的作品予以版權登記,《版權注冊指南》同樣規定如果作品的創作要素系人工智能生成,則不能予以注冊。[注4]而從司法角度,美國法院在“猴子自拍案”[注5]中即明確只有自然人的創作成果才能享有著作權,而由猴子拍攝的作品即便具備作品的外觀,同樣不能受到著作權法的保護;而在近年披露的Thaler v. Perlmutter案中,法官在判決中則明確指出人工智能生成內容不能得到著作權法保護。因此可以認為,目前美國司法體系普遍認為人工智能生成內容因難以體現獨屬于人類的獨創性不具備可著作權性,而應被歸入公共領域。

綜上所述,鑒于ChatGPT服務協議中已經明確約定因ChatGPT所提供服務所引發的相關爭議應當由NAM管轄并適用美國加州法律,因此按照美國目前司法實踐情況,在ChatGPT所生成的內容難以被認為具備著作權性的情況下,即便DeepSeek確實利用“知識蒸餾”技術學習了ChatGPT生成內容,也不構成著作權侵權。但如果與“知識蒸餾”相關的侵權糾紛由中國法院進行管轄,在目前我國法院傾向于承認人工智能生成內容的可著作權性的情況下,則還需通過第二步予以判斷是否構成侵權。


Part03.

“知識蒸餾”著作權侵權判斷第二步——人工智能生成內容的權利歸屬

在人工智能生成內容可以得到著作權法保護的情況下,由于侵犯著作權的一大前提在于被侵權人享有該作品的著作權,因此判斷“知識蒸餾”是否構成著作權侵權應當明確人工智能生成內容的著作權權利主體。在立法層面,我國并未明確規定人工智能生成內容的權利歸屬,而我國《生成式人工智能服務管理暫行辦法》第九條則規定:“提供者應當與注冊其服務的生成式人工智能服務使用者簽訂服務協議,明確雙方權利義務?!?/em>因此,人工智能生成內容的權利歸屬應以約定為主。

而在實踐中,目前市面上主流的大模型產品基本均已就生成內容的著作權歸屬進行了約定。如ChatGPT在服務協議[注6]“CONTENT”部分明確約定使用ChatGPT所生成的內容一切權利均歸屬于使用者;DeepSeek在服務協議[注7]中同樣將生成內容的所有權利授予了使用者;而國產人工智能另一明星產品Kimi則僅授予使用者非商用生成內容的權利[注8];而文心一言則在用戶協議[注9]中明確約定由百度公司享有生成內容的相關權利。因此應當認為,如果“教師模型”廠商已經通過服務協議等形式將生成內容的著作權授予了使用者,那么“學生模型”產品廠商以“教師模型”所生成的內容訓練“學生模型”在中國著作權法視角下并不存在相關障礙,屬于使用具有合法來源的數據。

鑒于ChatGPT在服務協議中已經明確約定生成內容的相關權利歸屬于使用人,而在“知識蒸餾”技術中,“學生模型”可以看作“教師模型”的使用人,因此即便根據中國法律體系,DeepSeek系蒸餾所需數據的合法著作權人,同樣不構成侵權。但如果某種“教師模型”廠商已經明確保留了權利,那么“學生模型”“知識蒸餾”的行為就有可能構成著作權侵權,進而需要第三步判斷。


Part04.

“知識蒸餾”著作權侵權判斷第三步——合理或合法使用抗辯

在人工智能生成內容能夠得到著作權法保護,并且“教師模型”依法依約對所生成的內容享有著作權的情況下,最終應當判斷已經涉嫌侵犯著作權的“知識蒸餾”行為在特定法域內能否構成著作權的合理或特殊合法使用。我國《生成式人工智能服務管理暫行辦法》第七條明確規定:生成式人工智能服務提供者應當依法開展預訓練、優化訓練等訓練數據處理活動使用具有合法來源的數據和基礎模型,涉及知識產權的,不得侵害他人依法享有的知識產權。根據此款規定,中國法律體系下人工智能抓取數據這一行為并不存在特殊豁免方案,而在中國《著作權法》合理使用規則體系中,留給“知識蒸餾”的空間極為有限,基本上只可能局限于在個人出于研究的目的非商業性質建構大模型這一情況下。因此依照中國法律,對于市場中廣泛存在的商用大模型而言,一旦在步驟一、二中未能獲得著作權侵權豁免的事由,則“知識蒸餾”大概率將構成著作權侵權。

與中國類似,美國對訓練人工智能的數據來源規定同樣較為嚴格,豁免空間主要見于美國《著作權法》第一百零七條規定的合理使用制度,即判斷是否構成著作權合理使用需要綜合考量使用目的、著作權作品自身性質、所使用的數量與質量、對作品潛在市場或價值的影響四個要素。但在“知識蒸餾”這一侵權形態下[注10],由于“學生模型”大概率商用,且很可能與“教師模型”予以正面競爭,“學生模型”需要擔負較高的舉證責任才可能自著作權侵權中得以豁免。

而區別于中美對于數據來源較為嚴格的規制,全球領域內某些國家則對人工智能抓取數據這一行為作出了豁免性的規定。例如根據新加坡《著作權法》第243[注11]、244[注12]條的規定,只要第三方出于“計算機分析”的目的,且能夠通過合法方式獲取數據,那么就可以繞開作品著作權保護的限制直接使用該作品作為訓練人工智能大模型的語料。并且根據新加坡《著作權法》第187條[注13]的規定,該合法使用規定不能被合同約定排除適用;除此之外,日本《著作權法》第三十條第四款[注14]、第四十七條第五款[注15]則對以非欣賞性的“信息解析”在法律上進行了著作權侵權豁免,依照日本法律,自“教師模型”獲取數據以訓練“學生模型”可以納入到“信息解析”的概念當中,從而免除“知識蒸餾”潛在的著作權侵權責任。

如前所述,在對于數據來源秉持較為寬松態度的國家中,即便在人工智能生成內容能夠得到著作權法保護,并且“教師模型”依法享有著作權的情況下,“知識蒸餾”的行為同樣可以得以豁免,因此在判斷“知識蒸餾”是否構成著作權侵權之時,應當充分考慮到所在法域的特殊性規定,從而客觀、全面地得出結論。


Part05.

結 語

綜上所述,經前述“三步法”著作權侵權判斷,不論從中國法還是美國法的視角,國內外對于DeepSeek“知識蒸餾”侵犯OpenAI公司著作權的指控均是難以成立的。但如果將目光不僅僅局限于著作權侵權這一形態,“知識蒸餾”這一技術事實上還存在潛在的合同違約及不正當競爭的法律風險。例如:ChatGPT在服務協議“Using our Services”部分明確禁止用戶使用ChatGPT的輸出內容開發與ChatGPT存在競爭關系的模型(Use Output to develop models that compete with OpenAI)。在此種情況下,雖然對ChatGPT進行“知識蒸餾”并不侵犯OpenAI公司所享有的著作權,但可能構成合同違約;與此同時,如果“知識蒸餾”在某一法域下被認定為合同違約或違反商業道德,且在商業上對“教師模型”產生了一定的負面影響,則可能在不同法域內構成不正當競爭。但需要指出的是,OpenAI公司對于DeepSeek的指控,不論是基于何種案由,OpenAI公司均需要就DeepSeek進行了“知識蒸餾”這一行為及其違法性承擔舉證責任,并充分論證這一行為對ChatGPT產生了何種影響,否則既有侵犯初創企業名譽權之責,又有對行業后起之秀政治偏見之嫌。指控應當基于證據與邏輯,而非基于傲慢與偏見。


圖片

注釋及參考文獻

上下滑動查看全部

[1] 邵仁榮、劉宇昂、張偉、王駿,《深度學習中“知識蒸餾”研究綜述》,《計算機學報》

[2] 也即理論界“工具說”

[3] 如(2019)粵0305民初14010號案,(2023)京0491民初11279號案等

[4] 人工智能生成內容(AIGC)的著作權問題探析,劉東、陳超逸、杜逸白,https://law.wkinfo.com.cn/professional-articles/detail/NjAwMDAyMTI5NDY%3D?q=AIGC%20%E8%91%97%E4%BD%9C%E6%9D%83&module=&childModule=all&from=editorial&searchId=07efeca69d264a9fb3ac83f5ab60e01f

[5] Naruto v. Slater

[6] https://openai.com/policies/terms-of-use/

[7] https://cdn.deepseek.com/policies/zh-CN/deepseek-terms-of-use.html

[8] https://platform.moonshot.cn/docs/agreement/modeluse#%E5%85%B3%E4%BA%8E%E7%94%9F%E6%88%90%E5%86%85%E5%AE%B9%E7%9A%84%E7%9F%A5%E8%AF%86%E4%BA%A7%E6%9D%83

[9] https://yiyan.baidu.com/infoUser/#olz3wy1lj

[10] 此時假設人工智能生成內容在某種特殊情況下得到了美國法院的著作權認可。

[11] In this Division, “computational data analysis”, in relation to a work or a recording of a protected performance, includes —(a) using a computer program to identify, extract and analyse information or data from the work or recording; and (b) using the work or recording as an example of a type of information or data to improve the functioning of a computer program in relation to that type of information or data.

[12] 244.—(1) If the conditions in subsection (2) are met, it is a permitted use for a person (X) to make a copy of any of the following material:(a) a work;(b) a recording of a protected performance.(2) The conditions are —(a) the copy is made for the purpose of —(i) computational data analysis; or (ii) preparing the work or recording for computational data analysis; (b) X does not use the copy for any other purpose; (c) X does not supply (whether by communication or otherwise) the copy to any person other than for the purpose of — (i) verifying the results of the computational data analysis carried out by X; or (ii) collaborative research or study relating to the purpose of the computational data analysis carried out by X; (d) X has lawful access to the material (called in this section the first copy) from which the copy is made; and . Illustrations (a) X does not have lawful access to the first copy if X accessed the first copy by circumventing paywalls. (b) X does not have lawful access to the first copy if X accessed the first copy in breach of the terms of use of a database (ignoring any terms that are void by virtue of section 187). (e) one of the following conditions is met: (i) the first copy is not an infringing copy; (ii) the first copy is an infringing copy but — (A) X does not know this; and (B) if the first copy is obtained from a flagrantly infringing online location (whether or not the location is subject to an access disabling order under section 325) — X does not know and could not reasonably have known that; (iii) the first copy is an infringing copy but —(A) the use of infringing copies is necessary for a prescribed purpose; and (B) X does not use the copy to carry out computational data analysis for any other purpose. (3) To avoid doubt, a reference in subsection (1) to making a copy includes a reference to storing or retaining the copy. (4) It is a permitted use for X to communicate a work or a recording of a protected performance to the public if — (a) the communication is made using a copy made in circumstances to which subsection (1) applies; and (b) X does not supply (whether by communication or otherwise) the copy to any person other than for the purpose of — (i) verifying the results of the computational data analysis carried out by X; or (ii) collaborative research or study relating to the purpose of the computational data analysis carried out by X. (5) For the purposes of this Act, the supply of copies of any material in circumstances to which this section applies —2020 Ed. Copyright Act 2021 164 Informal Consolidation – version in force from 1/11/2022 (a) is not to be treated as publishing the material (or any work or recording included in the material); and (b) must be ignored in determining the duration of any copyright in the material (or the included work).

[13] 187.—(1) Any contract term is void to the extent that it purports,directly or indirectly, to exclude or restrict any permitted use under any provision in (a) Division 6 (public collections), but not section 234 (supplying copies of published literary, dramatic or musical works or articles between libraries and archives); (b) Division 7 (computer programs); (c) Division 8 (computational data analysis); or (d) Division 17 (judicial proceedings and legal advice).

(2) Without limiting subsection (1), a contract term is void to the extent that it purports, directly or indirectly, to prevent or restrict the doing of any of the following acts in circumstances that constitute a permitted use under the provisions mentioned in subsection (1): (a) making a copy of a work or a recording of a protected performance; (b) supplying (whether by communication or otherwise) a copy of a work or a recording of a performance; (c) performing a work or a recording of a protected performance. (3) This section applies to any contract made before, on or after 21 November 2021.

[14] 第三十條の四:著作物は、次に掲げる場合その他の當該著作物に表現された思想又は感情を自ら享受し又は他人に享受させることを目的としない場合には、その必要と認められる限度において、いずれの方法によるかを問わず、利用することができる。ただし、當該著作物の種類及び用途並びに當該利用の態様に照らし著作権者の利益を不當に害することとなる場合は、この限りでない。一 著作物の録音、録畫その他の利用に係る技術の開発又は実用化のための試験の用に供する場合二 情報解析(多數の著作物その他の大量の情報から、當該情報を構成する言語、音、影像その他の要素に係る情報を抽出し、比較、分類その他の解析を行うことをいう。第四十七條の五第一項第二號において同じ。)の用に供する場合三 前二號に掲げる場合のほか、著作物の表現についての人の知覚による認識を伴うことなく當該著作物を電子計算機による情報処理の過程における利用その他の利用(プログラムの著作物にあつては、當該著作物の電子計算機における実行を除く。)に供する場合(図書館等における複製等)

[15] 第四十七條の五 電子計算機を用いた情報処理により新たな知見又は情報を創出することによつて著作物の利用の促進に資する次の各號に掲げる行為を行う者(當該行為の一部を行う者を含み、當該行為を政令で定める基準に従つて行う者に限る。)は、公衆への提供等(公衆への提供又は提示をいい、送信可能化を含む。以下同じ。)が行われた著作物(以下この條及び次條第二項第二號において「公衆提供等著作物」という。)(公表された著作物又は送信可能化された著作物に限る。)について、當該各號に掲げる行為の目的上必要と認められる限度において、當該行為に付隨して、いずれの方法によるかを問わず、利用(當該公衆提供等著作物のうちその利用に供される部分の占める割合、その利用に供される部分の量、その利用に供される際の表示の精度その他の要素に照らし軽微なものに限る。以下この條において「軽微利用」という。)を行うことができる。ただし、當該公衆提供等著作物に係る公衆への提供等が著作権を侵害するものであること(國外で行われた公衆への提供等にあつては、國內で行われたとしたならば著作権の侵害となるべきものであること)を知りながら當該軽微利用を行う場合その他當該公衆提供等著作物の種類及び用途並びに當該軽微利用の態様に照らし著作権者の利益を不當に害することとなる場合は、この限りでない。一 電子計算機を用いて、検索により求める情報(以下この號において「検索情報」という。)が記録された著作物の題號又は著作者名、送信可能化された検索情報に係る送信元識別符號(自動公衆送信の送信元を識別するための文字、番號、記號その他の符號をいう。第百十三條第二項及び第四項において同じ。)その他の検索情報の特定又は所在に関する情報を検索し、及びその結果を提供すること。二 電子計算機による情報解析を行い、及びその結果を提供すること。三 前二號に掲げるもののほか、電子計算機による情報処理により、新たな知見又は情報を創出し、及びその結果を提供する行為であつて、國民生活の利便性の向上に寄與するものとして政令で定めるもの2 前項各號に掲げる行為の準備を行う者(當該行為の準備のための情報の収集、整理及び提供を政令で定める基準に従つて行う者に限る。)は、公衆提供等著作物について、同項の規定による軽微利用の準備のために必要と認められる限度において、複製若しくは公衆送13信(自動公衆送信の場合にあつては、送信可能化を含む。以下この項及び次條第二項第二號において同じ。)を行い、又はその複製物による頒布を行うことができる。ただし、當該公衆提供等著作物の種類及び用途並びに當該複製又は頒布の部數及び當該複製、公衆送信又は頒布の態様に照らし著作権者の利益を不當に害することとなる場合は、この限りでない。(翻訳、翻案等による利用)