Nature杂志最新的一篇文章戳穿了一个不容忽略的征象:即便是科研论文,也未能逃脱成为人工智能演习素材的命运。学术论文以其长篇大论和密集的信息量,成为了滋养LLM的宝贵数据资源。
据透露,许多学术出版商已经向技能企业洞开了大门,授权它们利用其旗下的论文资源来演习AI模型。
英国出版商Taylor & Francis近期与微软签订了一笔代价1000万美元的条约,许可微软利用其数据来提升AI系统。同样,美国的一家出版商在6月份通过将其内容授权给某企业用于模型演习,实现了惊人的2300万美元利润。
然而,这些丰硕的收益,论文的原创作者却未能分享到一分一毫。
华盛顿大学的AI研究员Lucy Lu Wang还提醒,即便那些不在开放获取存储库中的内容,只要它们能够在线被查阅,很可能已经悄无声息地被纳入了大型措辞模型(LLM)的演习数据集。
这种做法对学术界的版权保护提出了严厉寻衅。面对不断升温的版权争议,浩瀚模型公司开始不惜重金,购买高质量的数据集以提升AI模型的性能。
今年,金融时报已经将其内容以高价出售给了OpenAI;Reddit也与谷歌签订了类似的互助协议。
可以预见,这样的数据交易将会更加频繁,成为行业内的一种新常态。在这样的背景下,如何保障学术论文作者的权柄,成为了亟待办理的问题。