AI巨头隐瞒版权秘密,曝光震撼真相
近日有消息指出,一项新研究似乎证实了OpenAI可能利用部分受版权保护的内容来训练其人工智能模型。这一发现无疑引发了关于数据使用边界和技术伦理的广泛讨论。在人工智能技术飞速发展的背景下,如何平衡技术创新与知识产权保护已成为亟待解决的问题。虽然这项技术能够带来诸多便利,但如果在未经许可的情况下使用他人作品进行训练,不仅可能触犯法律,也可能对创作者的积极性造成打击。因此,未来需要更明确的规范和更加透明的操作流程,以确保技术进步的同时也能尊重原创成果。
注意到,近日,OpenAI因被指控未经授权便利用作家、程序员以及其他版权持有者的创作成果,如书籍与代码库等,用于自身模型的训练而陷入法律纠纷。原告方指出,美国现行版权法并未为这种大规模的数据使用提供明确的豁免依据。尽管OpenAI坚称其行为符合“合理使用”的原则,但不少业内人士对此持怀疑态度,认为这一辩护难以成立。 在我看来,这场争议的核心在于如何平衡技术创新与知识产权保护之间的关系。一方面,人工智能的发展需要大量高质量的数据作为支撑,而这些数据往往来源于创作者的辛勤付出。如果任由技术公司随意使用而不给予补偿,无疑会打击创作者的积极性,进而影响整个行业的健康发展。另一方面,若对AI训练数据施加过于严格的限制,则可能阻碍技术进步,不利于社会整体利益的最大化。因此,我认为有必要通过立法或行业自律的方式,在确保创作者权益的同时,也为AI技术的发展预留足够的空间。只有找到两者间的最佳平衡点,才能实现双赢的局面。
这项研究由华盛顿大学、哥本哈根大学以及斯坦福大学的研究人员合作完成,他们提出了一种全新技术,旨在检测像OpenAI这样通过API提供服务的模型在训练过程中“记住”的数据信息。
AI 模型本质上是预测引擎,通过大量数据训练,它们能够学习各种模式,从而生成文章、照片等。虽然大多数输出并非训练数据的逐字复制,但由于模型的“学习”方式,部分内容不可避免地会被模型记忆下来。此前已有研究发现,图像模型会重复生成其训练数据中电影的截图,而语言模型则被观察到存在剽窃新闻文章的行为。
这项研究的核心方法基于一种被称为“高意外性”词汇的概念,这类词汇在大量文本中出现的频率较低。例如,在句子“Jack和我静静地坐着,耳边是雷达发出的嗡嗡声”中,“雷达”被视为具有高意外性,因为在统计学意义上,它出现在“嗡嗡声”之前的可能性比“引擎”或“收音机”等词更低。
共同作者对包括 GPT-4 和 GPT-3.5 在内的几种 OpenAI 模型进行了测试,通过从虚构小说片段和《纽约时报》文章中移除高意外性词汇,然后让模型尝试“猜测”被屏蔽的词汇,来寻找记忆迹象。研究人员认为,如果模型能够成功猜出这些词语,则很可能表明该模型在训练过程中记忆了这些片段。
根据测试结果,GPT-4 显示出记住了流行小说书籍的部分内容,包括一个包含受版权保护电子书样本的数据集 BookMIA 中的书籍。结果还表明,该模型记住了《纽约时报》文章的部分内容,尽管比例相对较低。
华盛顿大学的博士生、该研究的共同作者阿比拉沙・拉维奇汉德(AbhilashaRavichander)告诉TechCrunch,研究结果表明,这些模型有可能接受了“存在争议的数据”作为训练材料。
长期以来,OpenAI近期积极推动放宽对受版权保护数据在模型开发中的使用限制。他们不仅与部分版权所有方达成了许可协议,还设置了让权利人标记不愿被用于训练内容的功能。然而,OpenAI同时在多个国家游说立法机构,试图将“合理使用”原则纳入人工智能训练的相关法律框架之中。 在我看来,这一举措既体现了技术发展的迫切需求,也带来了关于版权保护与创新平衡的新思考。随着人工智能技术的进步,合理利用现有资源进行模型训练确实能够推动行业快速发展,但同时也需要警惕过度依赖受版权保护的内容可能带来的潜在风险。如何在鼓励技术创新的同时保障创作者权益,将是未来政策制定者需要重点解决的问题。我认为,通过多方协商达成共识或许是最佳路径,这样既能促进技术进步,又能维护公平公正的市场环境。