查看原文
其他

如何应对“模型抄袭”?对“斯坦福抄袭中国大模型”事件的三重思考

傅宏宇 彭靖芷 阿里研究院
2024-10-01


近期,“斯坦福抄袭中国大模型”事件引起业界广泛关注。我国模型“被抄袭”证明国产模型已经具有了全球竞争力和国际认可,而此事件对负责任的模型开源生态建设、传统文化的保护和利用提出了新的问题。


从开源治理角度,对开源模型的“抄袭”可构成知识产权侵权行为,开源模型权利人可以依据开源许可协议保护自身权益;窃取模型参数、谎报模型来源等不负责任的使用行为,违背了诚信原则和开源精神,开源社区可采取措施予以处理和规范。而对于传统文化,大模型在输入端广泛学习传统文化知识,在输出端将传统知识和非物质文化遗产的保护框架和规则嵌入技术实现中,让模型对传统文化有深刻认知并存敬畏之心,承担起文化传承传播和来源尊重保护的双重责任。


5月29日,斯坦福大学的某一研究团队发布了一个名为“Llama3V”的模型,但在发布几日后被质疑“套壳”面壁智能在5月中旬发布的8B多模态小模型 MiniCPM-Llama3-V 2.5(以下简称为“MiniCPM”)——Llama3V在代码运行兼容性、实验性特征、行为特征和定量测试结果等方面均与MiniCPM出现了较高的相似性或重叠性,并且Llama3V项目组没有表达任何对MiniCPM的来源说明或致敬感谢(事件全貌参见「AI科技评论」《重磅!斯坦福 AI 团队被曝抄袭中国大模型开源成果,推特舆论开始发酵》




一、责任方面,开源模型“窃书”算不算“偷”?

首先,在开源生态中,“抄袭”涉及的知识产权问题主要通过开源许可证或开源协议来进行管理。软件开源时代,研发者作为版权所有人,通过开源许可证授予不特定使用者附条件的版权许可,前提是满足其特定的限制条件,每一款许可证的前提条款规定不同(如使用率最高的Apache Licence 2.0,要求在延伸的代码中带有原来代码中的协议、商标、专利声明和其他原来作者规定需要包含的说明,且如果修改后的文档与原有文档有显著差异,必须放置版权说明)。


需要指出的是,传统软件开源时代的开源许可在模型时代已经有了较大的变化:一方面,各大模型研发公司存在使用其专有而非历史通用的开源许可证/协议的趋势,其特定于某一开源模型或其系列,这些协议在知识产权许可、使用及前提要求方面作出了细致的安排;另一方面,某一开源模型基于其他开源模型进行进一步开发(“Base Model”,如OpenBuddy)或使用了其他开源的数据集、代码等(如Fugaku)的情况变多,开源许可证层层累加,针对每一引用的他人原始工作成果都可能需要进行来源/版权说明。

基于目前模型开源许可的特征,具体到Llama3V抄袭这一案例中,需要进一步判断以下几个问题:

1.1 是否侵权——Llama3V对MiniCPM的“窃书”是否构成知识产权侵权?


从权利主体和行为特征来看,可以构成:


a.从权利主体来看,开源并不意味着所有人都可以免费拿着研发者的成果任意使用或“为非作歹”,研发者仍为其工作成果的版权权利人,有权对其作品主张权益保护,这在开源许可协议中均有确认;


b.从行为特征来看,将他人开源的工作成果微调并直接转化为自己的工作成果公开发布,可能符合传统软件知识产权侵权的定义,可参考《计算机软件保护条例》第二十四条对于软件版权侵权的规定,涉及未经软件著作权人许可,“复制或者部分复制著作权人的软件”,“向公众发行、出租、通过信息网络传播著作权人的软件”,“故意删除或者改变软件权利管理电子信息”,以及“转让或者许可他人行使著作权人的软件著作权的”等需要承担侵权责任的行为。


有几个值得探讨的点:第一,针对“未经软件著作权人许可”的判定,MiniCPM采取的模型开源协议已经授予了不特定第三人使用权,只要用户遵循发布者要求的协议规定即可自行决定是否使用此内容,并不存在“不打招呼就使用即为盗用”,MiniCPM的开源模型许可协议中附加使用权的前提条件包括来源说明,Llama3V未进行来源说明直接使用和发布且署名为自己,可能被视为未满足前提条件而不再享有使用权,从而符合“未经软件著作权人许可”的认定;第二,开源并不是直接的盈利行为,但是否盈利并不是侵权认定的前提,而是损害赔偿的参考,Llama3V的抄袭给团队带来了较大的媒体曝光和知名度,在模型开源与商业转化更加密切的趋势下,是否盈利应该不能作为阻碍点。


1.2 是否违约——面壁是否可以借助开源许可协议等法律工具来主张权益?


根据开源许可协议本身的约定内容及协议的约束力来看,可以主张:


a.从协议本身的约定内容来看,面壁对MiniCPM的代码和模型分别进行开源许可,代码依照 Apache-2.0 协议开源,模型权重的使用则遵循其特定的“通用模型许可协议-来源说明-宣传限制-商业授权”(以下简称为“面壁开源模型协议”),但对学术研究完全开放。Llama3V直接使用了其模型权重,根据面壁开源模型协议的约定,使用其模型,包括对模型的下载、运算、共享、修改、分发等操作,以及对于模型结果的共享、修改等操作,需要进行来源说明,即“使用者使用通用模型和通用模型结果时须附上此通用模型的来源及本许可协议链接”,而Llama3V仅署名自己,没有任何说明,是违反该开源协议的约定的。


b.而从协议的约束力来看,是否可直接依据协议主张权益是个待定的问题。单就来源说明来看,软件时代的开源协议主要涉及到此类版权说明且已经获得了国内外法院判例的认可,传统的开源许可证具备合同的特征,属于广义合同的范畴,可以被认定为非典型合同、格式合同,使用者对协议的承诺是通过行为作出的,即一旦下载、使用、分发开源大模型的部分或全部,即视为对协议条款所约定的内容均已知晓、理解并接受,因此应受合同条款的约束。基于此,目前依据此条款要求抄袭团队整改并增加版权说明、甚至停用下架是有依据的。至于协议其他部分设置的保证否认条款、责任限制条款是否具有合同约束力,是另一个问题,但即便这些条款因何种原因无效或不具可执行性,来源说明条款应仍有效,对模型的发布者及使用者仍具有约束力。



二、伦理方面,

不负责任的行为在模型开源生态中如何控制

在Llama3V这一案例中,“抄袭者”并非仅借鉴他人项目的代码或者模型架构,而是直接在miniCPM模型参数上加上随机高斯噪声就发布了新项目,且没有任何“致敬”或“感谢”。此类窃取和谎报学术不端行为在模型开源生态怎么看待和处理,有以下几个点值得讨论:


2.1 窃取和谎报学术不端行为违背开源精神?


不标注引用成果的来源是明显违背开源精神的做法,使用和借鉴前人的开放成果时,至少应主动标明来源并事先说明。即便在事后才披露来源并增加说明,这种做法难免引发外界的持续质疑,尤其对于模型企业来说,参与开源生态必须重视遵守开源精神和学术规范。


2.2 开源社区是否需要对窃取和谎报学术不端行为进行处理和规范?


开源生态对于模型时代以及企业竞争的重要性不言而喻,大模型的研发和训练极其需要人力物力的投入,相较于传统的软件开源,开源模型的研发成本消耗更大,如果纵容窃取行为将折损模型研发的积极性。在构建所有人都遵守规则的开源生态环境方面,开源社区因可以直接下架开源项目,具有一定的平台掌控力,在规范开源学术伦理方面是否可以有所作为是可以探讨的点,例如建立学术不端行为的投诉举报和处理机制等。


三、发展方面,

简书这类文化起源性的传统知识,

应该如何更有效地利用?



面壁智能创始人的回应中提到,可以基本确信Llama3-V是对MiniCPM的套壳的证据之一,在于对清华简的识别能力,这部分是其从清华简逐字扫描并标注的数据集,且并未公开,而Llama3-V展现出了完全相同的清华简识别能力,连做错的样例都一样。对于简书这样的传统知识,在大模型时代应当如何被合理利用,在促进传统文化传播的同时,也兼顾文化认知和认同?

3.1 从权益角度,模型研发者是否享有对古籍等传统文化整理数据集的版权权益?

目前对古籍整理成果的著作权保护尚未有定论,已有的判例仍然采取独创性一般原理进行判断。针对模型训练语料中的古籍整理工作,目前来看这项工作虽然耗时耗力,但最后的成果仅仅是对传统文化的梳理和电子化,且主要目的是为了将其转化成大模型可以学习的数据,依据独创性原理恐怕难以实现版权权益认定。

但大模型的能力与训练数据集直接相关,大模型没有读过此类知识不可能具有此类能力,相当于大模型的“独门秘籍”。这种直接窃取并掠为己有的行为,或许可借鉴反不正当竞争法在企业对数据产品的“竞争性财产权益”方面的认定来进行保护:一方面,从数据加工的角度,模型研发者对此类训练数据的整理和深度加工付出了较高的成本,最终呈现出的数据形式也是专用于其大模型训练,可以与属于公共领域的传统文化相区隔;另一方面,从劳动贡献的角度,研发者投入了较多人力物力财力,虽然训练数据集本身并未直接作为产品,但其用于模型训练使其大模型拥有了区别于其他市面上大模型的能力,因此具有一定的市场竞争性利益,由此形成潜在交易机会或竞争优势。

另外,针对开源模型使用的数据库,部分开源许可证设置了专门条款来进行要求或对数据库单独采用独立的开源许可证,前者如CC-BY-NC 4.0(知识共享许可协议)中对于特殊数据库(Sui Generis Data Database)的条款约定,如果分享数据库需要遵守开源协议对于版权说明、来源说明等的要求。如果开源模型研发者也希望对自己的数据集进行权益要求,尤其是耗费大量成本整理编辑的数据集,可在开源许可协议中采取类似的做法。

3.2 从文化角度,传统文化知识应不应限于某一模型专属使用?‍

目前面壁将清华简作为强证据证明抄袭,并没有声明对此类传统文化知识的独占性。但针对传统文化知识传承与保护这一议题,在大模型时代下,对于清华简这类中国传统文化资源的训练语料,是否具有中国的身份专属性?从严格的版权视角,简书文字属于公共领域知识,任何人都可以自由利用,但另一方面,基于传统知识的文化特征和属性,无形的非物质文化遗产和传统知识受到特殊的保护,以保护文化来源、促进文化传播。大模型可以通过两步走的方式承担起文化传承传播和来源尊重保护的双重责任。

输入端的角度,以汇聚世界知识为目标,大模型应当更多地学习世界知识。为促进技术发展,对于公共知识的输入不需要设限,以便于让大模型了解世界知识的真实分布,具备认知、识别和推理的能力。就传统文化的传承与保护而言,大模型在知识学习与传播方面的优势其实是对文化最好的传承和保护方式之一,在输入端设限将限制模型对文化传承传播的积极作用。

输出端的角度,将对传统知识和非物质文化遗产的保护框架和规则嵌入技术实现中,让模型有敬畏之心,在特定场景中和语境中有所为有所不为,这也和人类先有知识认知,然后建立精神意志层级和知识经济规律,最后由主观意识和外在约束指导行为相匹配。一方面,将文化的语境性和差异性在价值对齐阶段融入大模型中,通过价值对齐为大模型赋予社会人格,使大模型从智能走向智慧,因此可以将文化的渊源性、历史性和正向性与大模型对齐;另一方面,在模型输出端可以采用外层护栏技术,避免使用大模型将传统文化泛化、误解的行为,例如使用水印技术对传统文化进行标记和溯源等。


 版块介绍 — 治理之智 


在全球化背景下,科技的快速发展也带来了前所未有的治理挑战。本板块内容依托阿里巴巴集团先进的AI科技能力、丰富的应用场景与负责任的技术生态,聚焦于AI风险、AI大模型安全、AI大模型开闭源生态、AI大模型出海等AI治理政策研究,基于技术理性的风险观,为大模型发展与安全平衡与取舍提供独到见解。同时,我们致力于收集和分享海内外AI治理先进理论与经验,为构建合理的科技治理体系提供智慧与灵感。


推荐阅读

Reading

1、治理之智 | 《大模型训练数据白皮书》在第七届数字中国峰会发布:大模型是数据要素价值释放的最短路径

2、《中华人民共和国人工智能法(学者建议稿)》:产业期待中的中国方案

3、“不用旧瓶装新酒”:模型开源生态的认知——基于美国NTIA公共咨询意见的分析

4、寻找高质量数据:对“确定性”的实践探寻和思考

5、薛澜:人工智能面临治理挑战

6、合成数据:治理之智

7、合成数据:大模型训练和应用的新方案

8、合成数据:前世今生

9、“全球AIGC版权侵权首判”留下的三个问题

10、2024年中国数据治理前瞻:再平衡与新常态

11、走向AGI时代——关于AI发展与治理的十段观察

12、段伟文|如何应对前沿科技的核心伦理风险?

13、大模型数据之二|中美大模型的竞争之路:从训练数据讲起

14、大模型训练数据之一|大模型训练的“阿喀琉斯之踵”:数据这么近那么远?

15、ChatGPT这么牛,我们应该如何兼顾发展和治理?

16、静水流深:美国人工智能治理的特征、趋势与启示

17、治理之智 | 《国际论坛》贾开、俞晗之、薛澜:人工智能全球治理新阶段的特征、赤字与改革方向


- END - 


继续滑动看下一个
阿里研究院
向上滑动看下一个

您可能也对以下帖子感兴趣

文章有问题?点此查看未经处理的缓存