九游会·[j9]官方网站版权合作密集AI公司打算如何分蛋糕?丨AI版权战事②站在2024年,AI带来的版权问题日渐白热化,国内外已有不少案件涌入司法并落槌,争议、担忧、混沌……与旧秩序缠斗在一起,左右互搏。训练数据版权侵权何解?生成物是否为作品,谁拥有著作权?生成物侵权责任如何划分?产业链愈发精细下,权责如何分配?避风港原则如何适用?......
当然这不仅仅是法律问题,也事关经济业态、商业模式、产业健康可持续发展。AI的幻影叠落进现实,传统行业寻求新出路,新的利益分配格局需要新的规则,我们处在哪里,要抵达到何处?依旧没有答案。4月26日是世界知识产权日,南财合规科技研究院基于此前长期对AI治理的研究,将推出“AI版权战事”系列,与各界共同寻求解法。
随着版权摩擦的加剧,AI公司们已经意识到,要在这个竞争激烈的新兴地带分一杯羹,必须调整和重视它们的版权战略。
就在最近,谷歌因未妥善使用法国新闻内容训练AI而被罚款2.5亿欧元,目前正和法国新闻出版商重新商谈合作。去年12月以来,OpenAI与多家新闻出版商官宣商业合作关系,谷歌与“美国贴吧”Reddit达成版权合作……
这些密集合作中,我们能看到哪些版权纠纷的解法?一方面,欧盟做出了一个示范,强调提供退出机制和透明度,保障版权方利益。另一方面,21世纪经济报道记者梳理全球AI方和版权方的合作动态,发现版权报酬、责任分配仍然是谈判中的暗雷。
在给美国局的回复函中,几乎所有AI大公司都否认了版权付费的合理性。受访专家指出,这是因为大模型的训练过程到底能归类于版权法上的何种行为,还没有明确结论。合作如同在不稳地基上搭建起来的积木楼,充满不确定性。
单看法国这一次对谷歌2.5亿欧元的罚款,是基于谷歌曾经的版权合作承诺,以及欧盟的《单一数字市场版权指令》。
2022年,谷歌跟280家法国新闻媒体机构签署了版权承诺,如果搜索引擎继续抓取新闻,要向新闻出版商支付版权补偿费用。除此之外,协议还确定了“透明、客观、非歧视”的版权报酬谈判原则。
而法国竞争管理局今年发现,谷歌在训练Gemini的过程中违背了承诺:在透明度上,谷歌没有告知新闻机构Gemini使用了它们版权内容,更没有说明使用方法;在退出机制上,尽管谷歌推出了Google Extended技术——新闻媒体可以在网页中插入名为“”no index的标签,拒绝被网络爬虫抓取成为大模型Gemini的训练素材。但插入这一标签也意味着新闻将在谷歌搜索中完全消失,因此并不是一种有效的拒绝方式,阻碍了新闻机构的谈判能力。
同济大学法学院助理教授、上海市人工智能社会治理协同创新中心研究员朱悦此前向21世纪经济报道记者解释,对于版权方的利益保护,退出机制和透明度很重要。比如透明度能为各方提供充分信息,版权方就能有更多证据去争取有利的补偿。
朱悦指出,欧盟的《法案》也基本沿用了这一表述,包括尊重版权方作出保留的权利,要求AI系统的透明度。不过AI具体要披露哪些信息、如何披露,《法案》没有详细规定,各国监管可能会逐步细化细则。
根据法国竞争管理局的要求,谷歌下一步要做的,首先是详细向法国新闻出版商说明,Gemini从训练到输出如何使用了他们的新闻报道。谷歌还需要提供一种技术解决方案,能让新闻机构拒绝为谷歌大模型提供训练素材,这一退出机制的有效性是法国监管机构未来的关注重点。
事实上,从去年7月以来,谷歌、OpenAI、苹果已经在就AI版权问题与多家版权方洽谈合作,但不同于谷歌跟法国新闻机构有着明确约定,AI方与版权方的合作存在更多模糊地带。
拥有超过230家出版物的欧洲媒体巨头Axel Springer是全球第一个分到蛋糕的版权方。去年12月OpenAI在博客中表示,公司今后可以在大模型的训练中使用Axel Springer的报道,此外,ChatGPT还能帮用户总结Axel Springer的报道,并展示原始报道的出处和完整链接。
这笔交易的财务信息并没有披露,据《华尔街日报》报道,作为各自行业的巨头,交易费用预计为数千万美元。
规模更小、更独立的出版机构能分到的蛋糕要小得多。The Information透露,OpenAI计划每年向一些媒体公司提供100万到500万美元的费用,以用其新闻训练大模型。这个数额对于小型媒体来说也非常微薄,因此交易结果并不被大众看好。
定价是版权合作中的烫手山芋,《纽约时报》就是“谈崩了”的典型例子。去年4月《》开始与OpenAI谈判,但始终没能达成任何付费许可协议。12月27日,《》正式将OpenAI告上法庭,指控它们未经许可使报道内容训练AI,要求承担“数十亿美元的法定和实际损失”,标志合作彻底破裂。
北京大学新闻与传播学院教授胡泳在文章中分析,OpenAI的报价很可能与《纽约时报》的预期相差过大,定价策略将非常关键。
胡泳认为,作为AI“训练素材”的数据价值已经有了根本性调整:以前获得价值要开放数据,现在则要锁定数据。在搜索引擎时代,数字版权报价主要基于内容的曝光量和曝光带来的广告收入,而现在根据大模型公司的盈利方式定价可能是最合理的模式,比如利润分享或者按API访问次数收费。
但难题在于大模型产业尚未成熟,盈利能力、营收方式还充满变数。胡泳也提到:“所有现在采用统一定价的公司将来都会后悔这样做九游会·[j9]官方网站。它们没有意识到自己的数据到底有多值钱,也没有意识到货币化窗口有多小。”
同济大学法学院副教授陈吉栋在采访中表示,随着AI训练的需求变化,利用“作品表达”逐渐演变为利用“数据”,而数据在我国的法律定性还未明确,这确实为开展AI训练带来一定的不确定性。
陈吉栋指出AI公司主动寻求和版权方合作,本质是在规避风险。尤其需要注意的问题是合作授权是否存在瑕疵——比如有没有使用有个人信息的数据、能不能保证数据安全底线。以及如果未来出现侵权问题,双方约定怎么分配责任。
这些版权利益谈判的难题,从谷歌的经历中可见一斑。谷歌在官方博客中写道:“由于缺乏明确的要求,以及接二连三的法律诉讼,我们与新闻出版商的谈判变得很复杂,这阻碍了我们未来投资法国信息领域的考虑。我们以及其他市场参与者需要更清楚地了解,我们到底要向谁付费,要为什么付费。”“在无法预测准确方向的情况下,确定行动方针非常复杂。”
美国版权局(Copyright Office)在去年8月到11月之间,公开要求各界回复对训练AI使用版权材料的看法。21世纪经济报道记者整理后发现,几乎所有AI公司都反对训练AI需要版权许可和付费。
谷歌在回复函中解释,如果拆开看大模型训练过程的每一步——从抓取信息、复制输入到处理分析,只有最初的复制行为能落在版权法范畴中,其他行为不触发版权法。这也是许多大公司认可的观点。
OpenAI这样说明自己训练AI的技术步骤:首先,抓取互联网上公开可用的信息,或者是根据第三方商业协议获得信息;第二步,向模型“投喂”输入信息;第三步,模型将文本信息分解成一个个单词长度的token,计算哪些token经常一起出现,并转换为一串统计概率;Transformer架构进一步分析所有文本,比如哪个单词对于理解一句话的意思最重要,让AI捕捉到语言的深层结构和模式;最后将这些统计关系留在模型中,完成大模型的预训练。
简而言之,大模型记住的是统计关系,而不是文本本身。OpenAI表示,大模型的每串数字(即权重)反映了不同单词在不同情况下的统计关系。当有人发出指令时,大模型调用权重预测下一个词和句子——不会通过数据库重新访问版权作品,也不会直接复制粘贴作品的内容。
但上海大邦律师事务所高级合伙人游云庭提醒,人们可能不知道、也很难证明作品输入进大模型后就“不存在了”。事实上AI完全可以重现版权作品的副本,《纽约时报》起诉OpenAI的声明,就指出了ChatGPT可以几乎一字不差地复述《纽约时报》报道原文,这是训练AI需要获得版权授权的一个有力证据。
在陈吉栋看来,AI的困惑之处在于,它看起来在同时进行“精确复制”和“合理使用”。如果细看大模型训练过程的每一步,可能没办法归类于现在版权法中的任何一种行为,因此难以进行法律定性。
广东财经大学法学院教授姚志伟也认为,AI的训练过程,确实很难认定为复制等著作权专有权利。现在很流行的观点是训练AI是一种学习行为,类似于读一本书。
“但问题是,在所谓的学习过程中肯定会复制作品,这就涉及了版权法的复制权。理论上也可以说训练大模型不是为了复制作品,复制只是一种‘中间’行为。所以如果训练AI本身是合理使用,那么复制这种中间行为应该被吸收,有复制行为也不构成侵权。”姚志伟指出,这种理论在日本《著作权法》和美国的司法案件中有一定体现,但在中国法中没有立法依据,能否在司法上得到认可具有很强的不确定性。
陈吉栋认为,将机器学习类比为人类学习是一种技术解读九游会·[j9]官方网站。如果回归到立法初衷,会发现著作权法旨在鼓励人们学习、创造、推动知识的传播,而AI背后直接承载着商业目的、间接负担着知识传播,跟人类学习有着本质区别。在陈吉栋看来九游会·[j9]官方网站,即使是普通人在利用作品学习的时候,一般也要付出相应的代价,只有部分情景才会被认定是合理使用。就算AI训练被认定为学习行为,也很难适用合理使用这样的豁免性条款,不去支付对价、承担侵权风险。
“值得继续思考的是,在传统观念中,只有人类才能从事创造性活动,所以要制止损害人类创造性活动的行为。现在AI开始展现出创造能力,版权法的作品根基可能被撼动。AI技术迅速发展并汇聚了大量投资,是否还需要版权制度来激励?如果未来投资热潮过去,是否又应该探索新的方式来激励创新活动?”陈吉栋告诉21世纪经济报道记者。