出品 | 51CTO技能栈(微旗子暗记:blog51cto)
研究职员创造,网络上AI天生内容的积累将导致机器学习模型“崩溃”,除非该行业能够缓解这一风险。
牛津大学的研究团队创造,利用AI天生的数据集来演习未来的模型可能会产生无意义的内容,这一征象被称为模型崩溃。在一个例子中,一个模型起初是关于中世纪欧洲建筑的文本,但到了第九代时,却开始胡言乱语地评论辩论野兔。
在昨日揭橥于《自然》杂志的一篇论文中,由谷歌DeepMind和牛津大学博士后研究员Ilia Shumailov领导的研究表明,AI可能无法在演习数据集中捕捉到不太常见的文本行,这意味着基于这些输出演习的后续模型无法继续这些细微差别。以这种办法演习新模型会导致递归循环。
“对措辞模型的长期中毒攻击并非新鲜事物,”论文指出。“例如,我们看到了点击、内容和敲诈工厂的创建,这是一种人类‘措辞模型’,其事情是误导社交网络和搜索算法。这些中毒攻击对搜索结果产生的负面影响导致了搜索算法的变革。例如,谷歌降落了来自这些工厂的文章的排名,更加重视来自教诲等可信来源的内容,而DuckDuckGo则完备移除了这些内容。与LLMs(大型措辞模型)的涌现不同的是,一旦自动化,这种中毒可以发生的规模。”
1.举例:什么是模型崩溃在另一篇配套文章中,杜克大学电气与打算机工程助理教授Emily Wenger用一个天生狗图像的系统为例来解释模型崩溃。
“AI模型会方向于在其演习数据中重新创建最常见的犬种,因此可能会过度代表金毛寻回犬,而相对付更罕见的比熊格里芬凡丁犬,”她说。
“如果后续模型是在过度代表金毛寻回犬的AI天生数据集上进行演习的,那么问题就会加剧。经由足够多的循环,模型将忘却比熊格里芬凡丁犬等罕有犬种的存在,并只天生金毛寻回犬的图片。终极,模型将崩溃,无法天生故意义的内容。”
虽然她承认过度代表金毛寻回犬可能并非坏事,但崩溃的过程对付包含不太常见想法和写作办法的故意义代表性输出来说是一个严重问题。“这是模型崩溃的核心问题,”她说。
缓解这一问题的一个现有方法是给AI天生的内容添加水印。然而,这些水印可以很随意马虎地从AI天生的图像中移除。共享水印信息还须要AI公司之间进行大量折衷,“这在实践中可能不可行或商业上不可行,”Wenger说。
Shumailov及其同事表示,利用AI天生的数据来演习模型并非不可能,但行业须要建立一种有效的数据过滤手段。
“须要将LLMs天生的数据与其他数据区分开,这引发了关于从互联网上抓取的内容的原始性的问题:目前尚不清楚如何在大规模上追踪由LLMs天生的内容,”论文指出。
“一个选择是社区范围内的折衷,以确保参与LLM创建和支配的不同方面能够共享办理原始性问题所需的信息。否则,如果没有在LLM技能大规模运用之前从互联网上抓取的数据或大规模直接访问由人类天生的数据的权限,演习LLM的新版本可能会变得越来越困难。”
2.万能的网友:这是数据的第二定律网友们对此纷纭吐槽:
LionelB:认为这一征象早在ML圈中就已知,并将其比作数据的“第二定律”。DJO:指出“垃圾进,垃圾出”的说法已经存在了几十年。LionelB(再次):认为即便原始输入并非垃圾,输出也可能因迭代运用丢失性算法而变得无意义。m4r35n357:认为问题不在于输入或算法实现,而在于全体问题域本身是荒谬的伪数学废话。LionelB(回应m4r35n357):认为LLMs的目的是天生与查询干系的人类般合理的文本相应,并非伪数学,但认为其运用代价仍存争议。同时批评营销人群过度浮夸LLMs的能力。来源: 51CTO技能栈