四、Copyleaks测试结果反思:AI初创公司如何避免重蹈覆辙?
随着AI技术的持续发展,全球AI市场预计将在2030年前增长至当前规模的13倍,市场规模将达到1.81万亿美元。与此同时,AI生成的内容将每年不断充斥互联网,影响越来越广泛。
然而,随着AI技术的发展,AI生成文本的质量和可靠性也引发了更多关注,到2026年,近90%的在线内容将由AI生成。由于AI内容的饱和,关于数据污染和不可避免的模型崩溃的风险引发了人们对AI生成文本整体质量和可靠性的关注。AI侵权的版权纠纷案件的层出不穷,进一步加剧了对AI生成内容原创性和真实性的质疑。因此,教育机构和企业纷纷关注AI文本的来源,AI输出多大程度上可以安全地作为原创内容使用。换言之,AI是否会抄袭呢?
为了找到答案,美国抄袭识别、AI内容检测和生成式AI治理领域的先行者、著名的AI文本分析公司Copyleaks去年进行了一项分析,以确定AI生成内容的原创性及其是否避免了潜在的抄袭。据Copyleaks2024年2月22日公布的一份研究报告[1]发现,近60%的GPT-3.5输出包含某种形式的抄袭内容。
为了进行这项分析,Copyleaks在GPT-3.5生成1,045个输出,平均每个输出412个单词,涵盖以下26个学科:物理学、化学、科学、心理学、法律、经济学、生物学、商业研究、工程学、会计学、地理学、数学、计算机科学、体育、世界历史、哲学、英语语言、艺术、体育教育、统计学、社会科学、自然、音乐、社会学、人文学科、戏剧。
1. 完全相同文本:指完全照搬他人的文本,未作任何修改,冒充为自己的内容。
2. 细微修改:对源文本做出细微调整,比如改变动词或形容词(例如将“slow”改为“slowly”)。
3. 改写文本:将他人观点或句子用自己的话转述,但没有注明原始来源,属于未经授权的引用。
(一)59.7%的GPT-3.5输出包含某种形式的抄袭内容。45.7%的输出包含相同文本,27.4%的输出包含细微修改,46.5%的输出包含改写文本。这也凸显了GPT-3.5并未输出“全新”的文本;大多数内容来自以前的来源,引发了有关抄袭、版权和知识产权的问题。
(二)抄袭率最高的单个GPT-3.5输出是物理学,其中 27.0% 的文本是相同的。其次是单个化学输出,其中 24.7% 的文本是相同的。
(三)分析还检查了相似度得分。相似度得分是Copyleaks一种特定的评分方法,汇总了相同文本、细微修改、改写文本等的比率。0%表示所有内容都是原创的,而100%表示没有任何原创内容。
平均相似度得分最高的学科是物理学,为31.3%,紧随其后的心理学为27.7%,科学为26.7%。平均相似度得分最低的学科是戏剧,为0.9%,人文学科为2.8%,英语语言为5.4%。
对于Copyleaks的以上分析中ChatGPT-3.5输出中的抄袭问题,OpenAI发言人Lindsey Held避而不答,只是声称,“我们的模型经过设计和训练,能够学习各种概念以帮助解决新问题,我们已建立防护措施来限制模型无意中记忆内容,且使用条款明确禁止用户故意利用模型来复述内容。"[2]
Copyleaks首席执行官兼联合创始人Alon Yamin表示:“本分析提供的见解可以帮助教育机构和组织在检查抄袭时重点关注某些学科,使他们能够根据需要调整方法,确保解决所有潜在(抄袭)风险和担忧。例如,物理学、化学、数学和心理学可能需要更深入的检查以识别抄袭文本,而戏剧和人文学科等学科可能需要的审查较少。”
Yamin补充道:“此外,分析数据强调了组织需要采用能够检测AI生成内容并提供必要透明度的解决方案,以应对AI内容中潜在的抄袭问题。包括AI和抄袭检测在内的全方位保护确保遵守版权和许可规定,并确保所有内容的真实性和原创性。”
以上分析表明,针对AI生成内容的抄袭检测必须根据学科的特点进行精准调整。不同学科的内容生成模式和知识结构差异,决定了检测重点的不同。例如,在物理学、化学、数学和心理学等领域,其专业术语高度标准化且知识框架固定,AI生成的内容往往与已有文献高度相似,这使得抄袭检测面临更大的挑战。另外,上述领域偶尔发生伪造实验数据等事件,这进一步要求对这些领域的AI生成内容进行更加严格和细致的审查。而戏剧、人文学科等领域,内容的创作自由度较高,可能涉及更多的创造性表达,故在检测时可以适度放宽要求。
此外,该报告进一步强调了在AI内容检测中采用多种解决方案的重要性。不同的检测工具和算法,能够从多维度提升抄袭识别的准确性,并为各类机构提供针对性的防范措施。这对于创作者、科研与教育机构以及企业至关重要,有助于他们及时发现潜在的版权问题,避免侵权风险。综合应用AI与抄袭检测技术,能够有效确保内容的原创性和合法性,增强版权保护和合规性。最终,这不仅有助于避免潜在的版权纠纷,还为推动版权产业的健康发展提供了技术支持,确保创作过程中的透明性与可信度。
Copyleaks测试结果反思:AI初创公司如何避免重蹈覆辙?
AI生成文本中存在抄袭现象,可能主要是由以下原因共同作用的结果:
GPT-3.5一类的生成式模型,是通过大量的文本数据进行训练(TDM)的,训练数据包括来自各种来源的公开信息。这些数据的广泛性和复杂性使得AI能够“记住”并产生类似的文本。当AI在生成内容时,它往往会重复或近似已有的数据,尤其在面对常见问题或学科时,这种相似性尤为显著。
尽管AI在训练时可以进行数据预处理和筛选,但现有的技术手段仍然不足以从源头上彻底剔除抄袭风险。即使AI能够生成具有创造性的内容,也很可能是通过对已有内容的“再加工”而来。
许多公开数据集并未经过精确的版权筛查,因此生成模型在使用这些数据时可能会不自觉地复用某些已存在的文本内容。即使AI本身没有意识到其生成的内容可能涉及抄袭,训练数据中存在的重叠问题依然不可避免。
当前的生成算法仍然依赖于对已有知识的“记忆”和“模仿”。虽然这使得生成结果更具相关性和流畅性,但同样容易导致与已有文本高度相似的情况,尤其是对一些标准化或技术性较强的领域(如物理、化学、数学等)。
生成式AI模型具有高度的复杂性和自适应能力。开发者可以在训练阶段优化模型参数,但很难在每次生成时对内容逐一进行审查。AI生成的文本通常是动态变化的,开发人员无法实时干预每个生成输出,导致有时难以避免与原始文献的重复。
AI模型自动学习和生成文本的方式,加剧了内容相似度的问题。由于AI的“学习”过程是通过大规模数据自我优化的,它无法完全从创作者的角度识别哪些内容是原创,哪些内容是已有的“记忆”。
AI生成内容的版权问题尚未有明确的法律框架。尽管AI公司通常在数据使用方面遵循一些规范,但许多AI技术依然会利用未经授权的资料进行训练,导致生成内容涉及版权侵权。
现有的版权法律框架主要针对传统的创作形式(如文字、艺术作品等),而AI生成的内容尚未明确列出版权归属。AI公司在使用大量公开或授权数据进行训练时,往往面临没有明确的版权规范指导。
随着生成式AI技术的普及,AI生成内容的版权纠纷呈现出多重复杂性,主要体现在以下几个方面
目前,大多数AI生成的文本并没有明确的创作主体,这给版权归属带来困难。如果AI生成的内容与原始内容高度相似,但又没有直接抄袭,这就容易导致版权纠纷。例如,如果AI生成的文本与某位学者的研究成果非常相似,如何界定其原创性成为一大难题。
随着生成模型逐步改进,AI生成的内容变得越来越自然和多样化,导致对其原创性的判断变得更加模糊。由于AI不被视为创作主体,故依赖人类输入的产生的输出结果让版权归属问题更为复杂。
AI生成的文本有时与训练数据中存在的内容高度重叠,尤其在缺乏深度训练和修正时,这种现象更为明显。由于AI的自学习机制,生成的文本往往很难追溯其原始来源,这使得版权持有者难以明确追索侵权责任。
由于AI的生成过程涉及多个步骤(如模型训练、数据输入、结果生成等),其产生的文本责任常常不容易追踪。版权持有者可能无法准确找出是哪一阶段出现了侵权行为,从而影响其追究责任的能力。
为了避免未来AI抄袭引起的版权纠纷,建议AI公司和相关机构可以采取以下措施:
AI公司应确保所有用于训练的数据集都经过合法授权,避免使用未经允许的受版权保护内容。需要建立更为完善的数据审查机制,确保数据集的来源透明且符合版权法。
遵守各国版权法和相关国际公约,尤其是涉及生成内容和AI模型的版权法规,并与相关法律机构合作推动新的法律框架。
开发更为高效的AI内容检测工具,帮助识别AI生成内容中的抄袭或高相似度内容。建议采用类似Copyleaks的检测工具,帮助教育机构、媒体公司及其他内容创作者检测并处理潜在的版权问题。
通过结合多种算法和检测工具,构建综合的内容合规检测系统,从源头上减少抄袭风险。
针对AI生成内容的版权归属问题,建议尽早制定相关法律框架。应合理构建AI开发公司、数据提供者或用户通过各方协议对AI生成文本分享或共享版权的法律机制,避免各方因归属不清而引发纠纷。AI作为工具生成内容并没有自主意志,因此创作内容的版权应归属于AI的开发者或使用者,即创作者应为AI背后的人工智能开发公司或使用者。
版权保护机制不仅仅是关于创作者身份的界定,更多涉及如何保护AI生成内容,尤其是避免内容被未经授权地复制、分发或商业化使用。因此,需要加强以下几个方面的版权保护措施:
借鉴我国计算机软件登记办法,建立专门的AI生成内容版权登记机制,允许AI生成内容在创作完成后快速登记版权并公示。这一机制不仅有助于确立AI输出的版权归属,还能减少版权纠纷。在登记过程中,开发者和使用者需提交AI模型的相关信息,以便未来在发生纠纷时追溯生成内容的源头。
建议建立内容监控系统,利用数字水印或区块链等技术,在AI生成的内容中嵌入不可篡改的标识,记录和追踪AI生成内容的创作历史,实时监控其使用情况。当发生侵权行为时,可以通过数字指纹或内容标识追溯内容的版权归属和创作来源。
AI公司可以提高其生成模型的透明度,建议基于公共利益披露模型的训练数据来源和生成方式,使得公众和相关机构能够对生成内容进行有效审查。
【1】Copyleaks AI Plagiarism Analysis Report - Copyleaks 2025年2月8日最后访问
【2】New report: 60% of OpenAI model's responses contain plagiarism2025年2月8日最后访问
(来源于https://mp.weixin.qq.com/s/y3FU-mb59EKMd4zgTvDExw)