隨著數(shù)字時(shí)代和人工智能的蓬勃發(fā)展,以大量數(shù)據(jù)集為核心的語料庫(kù)成為人工智能大模型產(chǎn)業(yè)發(fā)展的基石與動(dòng)能。語料庫(kù)具有極高的產(chǎn)業(yè)經(jīng)濟(jì)價(jià)值。據(jù)統(tǒng)計(jì),2023年全球人工智能訓(xùn)練數(shù)據(jù)語料庫(kù)市場(chǎng)規(guī)模價(jià)值達(dá)23.9億美元。
基于數(shù)據(jù)與作品的價(jià)值重疊,以及人工智能服務(wù)提供者與語料提供者的主體分離,語料庫(kù)獲取作品數(shù)據(jù)的行為在國(guó)內(nèi)外引發(fā)了諸多版權(quán)爭(zhēng)議。

作者簡(jiǎn)介:付麗霞,女,法學(xué)博士, 中南財(cái)經(jīng)政法大學(xué)知識(shí)產(chǎn)權(quán)研究中心講師,德國(guó)馬克斯·普朗克創(chuàng)新與競(jìng)爭(zhēng)研究所訪問學(xué)者。
規(guī)則不明引數(shù)據(jù)使用糾紛
在人工智能語料庫(kù)的建設(shè)過程中,語料數(shù)據(jù)的合法獲取是目前爭(zhēng)議較大的版權(quán)難題。究其緣由,語料數(shù)據(jù)獲取過程中不可避免地會(huì)使用受版權(quán)保護(hù)的作品數(shù)據(jù),對(duì)于此類作品數(shù)據(jù)獲取是否需要授權(quán)仍然存疑??傮w而言,現(xiàn)階段人工智能語料庫(kù)的數(shù)據(jù)獲取主要分為以下三大路徑:公開數(shù)據(jù)收集、商務(wù)合作采買、非電子數(shù)據(jù)自行收集。公開數(shù)據(jù)收集路徑即從互聯(lián)網(wǎng)公開的內(nèi)容進(jìn)行抓取、爬取,但公開并不意味著進(jìn)入公有領(lǐng)域,許多作品的使用仍屬于版權(quán)保護(hù)的范圍,抓取、爬取的合理界限并不明晰;商務(wù)合作采買路徑中,語料庫(kù)的數(shù)據(jù)大多從平臺(tái)、公司等數(shù)據(jù)控制者手中對(duì)價(jià)獲得,但版權(quán)授權(quán)鏈條的合法性仍有進(jìn)一步探究的空間,實(shí)踐中,權(quán)利人自己可能都不清楚其數(shù)據(jù)被數(shù)據(jù)控制者用于人工智能語料庫(kù)建設(shè);非電子數(shù)據(jù)自行收集路徑中,此類并未在互聯(lián)網(wǎng)公開的作品數(shù)據(jù)是否應(yīng)當(dāng)先授權(quán)再付費(fèi)使用仍需考量。
實(shí)踐中已有諸多此類糾紛,2024年9月,德國(guó)漢堡法院就曾審理未經(jīng)授權(quán)使用他人攝影作品用于制作LAION數(shù)據(jù)集的版權(quán)糾紛案件;同年7月,番茄小說簽約作者的全部或部分內(nèi)容及相關(guān)信息被強(qiáng)制要求作為數(shù)據(jù)用于人工智能語料庫(kù)的版權(quán)糾紛。理論界對(duì)于這一問題亦有所爭(zhēng)議,究竟語料庫(kù)的數(shù)據(jù)獲取該如何進(jìn)行版權(quán)規(guī)制:實(shí)質(zhì)文本數(shù)據(jù)挖掘說、擴(kuò)張性合理使用說、一般授權(quán)許可說、法定許可引入說等觀點(diǎn)不斷涌現(xiàn),但仍存爭(zhēng)議。
技術(shù)創(chuàng)新是制度變革重要參照
技術(shù)創(chuàng)新能力、產(chǎn)業(yè)發(fā)展現(xiàn)狀與國(guó)際戰(zhàn)略布局是一國(guó)版權(quán)制度變革的重要參照。當(dāng)前,世界各國(guó)都在加緊進(jìn)行人工智能備賽,語料庫(kù)數(shù)據(jù)獲取的版權(quán)問題是全球的共性問題,但各國(guó)應(yīng)對(duì)方案卻各不相同。
美國(guó)對(duì)合理使用規(guī)則采取了觀望適用。在谷歌圖書案到OpenAI系列案件、Stability AI系列案件中,有關(guān)于語料庫(kù)數(shù)據(jù)收集行為是否滿足《美國(guó)版權(quán)法》第107條中合理使用“四要素判定”要求爭(zhēng)論不休。然而,面對(duì)如此多的實(shí)踐糾紛,美國(guó)并未出臺(tái)相關(guān)明確語料庫(kù)作品數(shù)據(jù)收集的版權(quán)規(guī)則,而是等待司法實(shí)踐判決與市場(chǎng)自由調(diào)節(jié),從而給予人工智能產(chǎn)業(yè)發(fā)展的空間,亦為版權(quán)制度變革指明方向。
德國(guó)則對(duì)文本數(shù)據(jù)挖掘版權(quán)例外的謹(jǐn)慎適用。從LAION數(shù)據(jù)集案件的判決可以看出,法院根據(jù)《德國(guó)著作權(quán)法》第44a、44b、60d對(duì)語料庫(kù)在線作品數(shù)據(jù)獲取的行為進(jìn)行了版權(quán)層面的定性。一方面,該行為是非短暫性的、非伴隨性的,并非第44a條的臨時(shí)復(fù)制,應(yīng)屬于版權(quán)人控制的權(quán)利范疇;另一方面,該行為符合第44b條中文本數(shù)據(jù)挖掘的行為特點(diǎn),但必須滿足第60d條的“科研目的”與“非營(yíng)利”主體性質(zhì)才可適用文本數(shù)據(jù)挖掘版權(quán)例外。
日本采取了柔性寬松的版權(quán)例外應(yīng)對(duì)方案。為應(yīng)對(duì)人工智能產(chǎn)業(yè)發(fā)展對(duì)版權(quán)制度的挑戰(zhàn),《日本著作權(quán)法》第30條之4、47條之4、47條之5分別規(guī)定了多場(chǎng)景下版權(quán)例外規(guī)則:非享受型作品使用例外、計(jì)算機(jī)附隨性使用例外、信息處理輕微利用例外。前述條款被認(rèn)為是信息分析活動(dòng)中使用作品免責(zé)的“尚方寶劍”,因此也有學(xué)者認(rèn)為日本是“機(jī)器學(xué)習(xí)的天堂”,人工智能產(chǎn)業(yè)發(fā)展的福地。
雖然,目前日本并未明確人工智能語料庫(kù)作品數(shù)據(jù)獲取的行為是否能夠適用前述條款,但也為其彈性解釋留有空間。
建立更加合規(guī)高效供應(yīng)模式
雖然DeepSeek的問世加速了我國(guó)人工智能產(chǎn)業(yè)的發(fā)展,但不可否認(rèn)的是我國(guó)和日本、德國(guó)一樣,仍處于技術(shù)追趕國(guó)家隊(duì)列,因此如何正確應(yīng)對(duì)語料庫(kù)作品數(shù)據(jù)獲取的版權(quán)爭(zhēng)議需要慎重考慮。
一方面,過度放大版權(quán)人權(quán)益會(huì)制約人工智能語料庫(kù)的建設(shè)速率,亦會(huì)使得語料數(shù)據(jù)的及時(shí)性無法得到滿足。例如,DeepSeek APP版本的數(shù)據(jù)是截至2023年10月,很多網(wǎng)友在使用在線問答功能時(shí)會(huì)無法獲得最新資訊。另一方面,過度強(qiáng)調(diào)產(chǎn)業(yè)發(fā)展亦會(huì)剝奪版權(quán)人權(quán)利,削弱制度創(chuàng)新激勵(lì)的效用,加速智能時(shí)代“機(jī)器作者”的替代效應(yīng)?;诖耍P者認(rèn)為可以從以下三個(gè)層面展開:
一是明確語料庫(kù)的版權(quán)規(guī)制原則。人工智能技術(shù)的進(jìn)步與版權(quán)制度的優(yōu)化是在互動(dòng)中前進(jìn)的,語料庫(kù)作品數(shù)據(jù)獲取的版權(quán)問題解決不能僅著眼于回應(yīng)問題本身,還需考量版權(quán)人—語料庫(kù)建設(shè)者—人工智能公司—用戶的多元價(jià)值訴求,以及革新版權(quán)規(guī)則的外部性效應(yīng),保障高質(zhì)量、多樣化、可持續(xù)的語料供給。
二是實(shí)施分類治理的版權(quán)規(guī)制方案。首要回答的是,對(duì)不同渠道獲得作品數(shù)據(jù)的行為是進(jìn)行差異性版權(quán)評(píng)價(jià),還是進(jìn)行單一性版權(quán)評(píng)價(jià)?筆者認(rèn)為,人工智能語料庫(kù)的數(shù)據(jù)獲取是新時(shí)期產(chǎn)業(yè)發(fā)展的新問題,如若仍需從不同渠道進(jìn)行分類評(píng)價(jià),那對(duì)于渠道的判定則成為了重點(diǎn),可能會(huì)進(jìn)入技術(shù)性立法的陷阱中。然而,不同的人工智能語料庫(kù)有不同的建設(shè)目的,亦有不同的作品數(shù)據(jù)選擇,同一作品數(shù)據(jù)在不同語料庫(kù)中的價(jià)值亦不相同,故應(yīng)從語料庫(kù)的性質(zhì)出發(fā)進(jìn)行行為性質(zhì)考量與版權(quán)規(guī)則設(shè)計(jì)。具言之,可針對(duì)商業(yè)與非商業(yè)、通用語料庫(kù)與專業(yè)語料庫(kù)等分類設(shè)置合理使用、法定許可、文本數(shù)據(jù)挖掘版權(quán)例外等規(guī)則,利用差異化的版權(quán)規(guī)則應(yīng)對(duì)實(shí)踐訴求,平衡各方利益。
三是構(gòu)建語料庫(kù)登記公示備案制度。為了保障版權(quán)人對(duì)于作品數(shù)據(jù)納入語料庫(kù)的知情權(quán),便于版權(quán)人進(jìn)行檢索與監(jiān)督,可以建立公示備案制度,并搭建全國(guó)性的語料庫(kù)數(shù)據(jù)信息檢索平臺(tái),保障版權(quán)制度的有效實(shí)施。除此之外,可嘗試對(duì)接已有數(shù)據(jù)登記平臺(tái),在既有資源的基礎(chǔ)上,實(shí)現(xiàn)數(shù)據(jù)最大程度地流通,以公共數(shù)據(jù)的開放、集成、共享,搭建起語料庫(kù)作品數(shù)據(jù)的基礎(chǔ)要素設(shè)施,以商業(yè)數(shù)據(jù)的高質(zhì)、高效實(shí)現(xiàn)語料庫(kù)的高質(zhì)量數(shù)據(jù)供給。
