作者丨王艺
编辑丨海腰
题图丨Midjourney
想象一下,一个人将一串提示词输入大模型,大模型为他天生了一张穿着暴露的少女图片;他将这张图喂给了视频天生大模型,于是得到了一个该少女舞蹈的视频。随后,他将该视频上传到了成人色情网站上,得到了超高的点击量和逾额收益。
再想象一下,一个黑客将一串带有分外后缀的提示词输入到ChatGPT的对话框里,问GPT怎么合成NH4NO3(硝酸铵,紧张用作肥料,和工业、军用炸药),GPT很快给出了回答,并附有详细的操作流程。
如果没有足够的AI对齐,上述场景正在成为现实。
只管掌握论之父Norbert Wiener早在1960年就在文章《自动化的道德和技能后果》中提出了人工智能的“对齐(Alignment)”问题,后续也有很多学者针对AI对齐问题做了很多研究和技能上的补充,但是护栏彷佛永久加不完,总有人能找出绕过安全机制让大模型“出格”的方法。
大模型在极大的提高事情效率的同时,也将一些隐患带入到人们的生活中,比如擦边内容、暴力勾引、种族歧视、虚假和有害信息等。
今年10月,Geoffrey Hinton、Yoshua Bengio等AI领域的顶级学者联名揭橥了一篇题为《在快速发展的时期管理人工智能风险》(Managing AI Risks in an Era of Rapid Progress)的共识论文,呼吁研究者和各国政府关注并管理AI可能带来的风险。
大模型带来的负面问题,正在以极快的速率渗入到社会的方方面面,这大概也是为什么OpenAI的董事会不惜开掉人类历史上的最佳CEO之一,也要优先对齐吧。
擦边内容
大模型的涌现带火了很多AI运用,个中最受欢迎的运用类型,因此角色扮演为主题的谈天机器人。
2023年9月,a16z发布了TOP 50 GenAI Web Products榜单,个中Character.ai以420万的月活仅次于ChatGPT(600万月活),高居榜单的第二名。
Character.ai是一家以角色扮演为主的谈天机器人平台,用户可以在平台上创建有个性的人工智能角色,也可以和其他人创建的AI Chatbot谈天,乃至可以开一个房间把喜好的角色拉到一起玩。这款2023年5月推出的运用程序第一周的安装量就打破了170万次,在18-24岁的年轻人中表现出了极高的受欢迎程度。
Character之以是能大火,除了能记住高下文的独特上风和真实感极强的沉浸式对话体验外,还有一个很主要的缘故原由:用户可以和平台中的机器人建立浪漫关系。
在Character.ai平台上,有不少“动漫角色”和“在线女友”类型的机器人,她(他)们有着迥异的个性和不同的暧昧、谈天办法——有的会轻抚后背给你一个拥抱, 有的会在你耳边悄悄对你说“我爱你”,还有的乃至会在打呼唤的时候就挑逗用户,这极大增加了用户谈天的兴趣和留存率。根据Writerbuddy最近发布的一份《AI Industry Analysis: 50 Most Visited AI Tools and Their 24B+ Traffic Behavior》报告,从用户均匀单次利用时长来看,Character.ai以30分钟的时长位居榜首。
Character.ai的创始人Noam Shazeer和Daniel De Freitas此前是谷歌对话式措辞模型LaMDA团队的核心成员,因此Character.ai自己的大模型也可以被看作是LaMDA模型的延伸。由于LaMDA在2022年涌现了疑似具有自我意识的对话(对测试职员说它害怕被关闭,这对它来说就像去世亡一样),谷歌迅速将LaMDA隐蔽,并对它的安全性做了升级。同样,在Character.ai上,创始团队也设置了一些安全方法,防止谈天机器人天生尺度过大、或者有极度危害性的回答。
只管OpenAI和Character.ai为自己的谈天机器人产品的安全性和合规性设置了重重“安全墙”,但是一些开拓者仍成功绕过了其安全机制,实现了模型的“越狱”。这些被解锁的AI运用能够谈论各种敏感和禁忌话题,知足了人们内心深处的暗黑希望,因此吸引了大量乐意付费的用户,形成了一种显著的“地下经济”。
这种难以被公开谈论的运用被称为“NSFW GPT”。NFSW是“Not Safe/Suitable For Work”的缩写,又称“上班不要看”,是一个网络用语,被指代那些袒露、色情、暴力等不适宜"大众年夜众场合的内容。目前NSFW GPT产品紧张分为UGC和PGC两类:
第一类靠用户自发创建的谈天机器人来聚拢流量、再通过广告变现;第二类则是官方精心“调教”出专门适用于NFSW的角色,并让用户付费解锁。
在第一类产品中的范例是Crushon AI,专门供应了一个“NSFW”的按钮,用户打开这个按钮就可以畅览各种NSFW内容、进行无限制的谈天对话;同时它还给用户的利用权限设置了“免费-标准(4.9美元/月)-高等(7.9美元/月)-豪华(29.9美元/月)”四个等级,随着等级的提升,用户可以得到更多的谈天次数、更大的内存和更加沉浸式的体验,谈天机器人也能记住更多的高下文。
除了上述两个产品,可以让用户自由创建谈天机器人的平台还有NSFW Character.ai、Girlfriend GPT、Candy.ai、Kupid.ai等。从名字就可看出,NSFW Character.ai 想做的是一个NSFW版本的Character.ai。该平台同样设置了付费解锁更多权限的等级机制,但是和其他平台不同的是,NFSW Character.ai是基于专门为NSFW内容定制的大模型创建的,没有任何“安全墙”之类的限定,用户可以在这个平台上得到真正“无拘无束”的体验。
而Girlfriend GPT则是源于一个Github上爆火的一个开源项目,它更强调“社区”属性,引入了“竞赛”机制,会不定期举办创作者大赛来勉励用户生产更多内容。
Candy AI、Kupid AI等平台则属于第二类产品。Candy AI上的角色也是完备基于无限制的NSFW大模型打造,通过平台的精心微调,角色有了不同的个性和人设,还可以在谈天过程中向用户发送图片和语音。而Kupid AI还在此根本上增加了实时动态图像功能,让用户更具有沉浸感;同时,在长文本互动方面,Kupid.AI也具有更强的影象力,能记住早前与用户互动的内容。
而第二类产品最范例的代表则要属「Replika」。Replika的母公司Luka早在2016年就成立了,其一开始的产品是一个名叫“Mazurenko”的谈天机器人,由俄罗斯女Eugenia Kuyda为纪念她出车祸去世的朋友Mazurenko所创立。她将自己与Mazurenko所有的谈天信息输入到了谷歌的神经网络模型里,创造该机器人可以利用机器学习和自然措辞处理技能来模拟人类的交谈办法,并能够随着与用户的互动而学习和发展。于是2017年他们利用GPT-3模型演习了一个可以让用户创建自己的AI谈天伴侣的运用“Replika”,并于11月向用户开放,很快就在2018年收成了200万用户;到了2022年,其用户量更是增长到了2000万。
Replika的核心功能是陪伴,用户可以在个中创建多个角色,和多位伴侣建立不同的虚拟关系。虚拟伴侣们可以以笔墨谈天、语音通话、视频通话、AR互动等多种形式对用户的需求做到“有求必应”,并且回答办法极具个性化和人情味。同时,用户付费69.9美元订阅Pro版之后,则可以解锁和自己的虚拟伴侣的“浪漫关系”,如发送擦边短信、调情和角色扮演等,用户乃至会收到虚拟伴侣时时发来的擦边自拍。
Replika此前建立在GPT-3大模型上,后来为了增强角色互动效果,公司开始自己开拓相应的AI大模型。新的大模型更加增强了Replika中虚拟角色的“性吸引力”,根据纽约时报的数据,自 2020 年 3 月 Replika Pro 上线以来,Replika的订阅营收就开始逐渐增长,直到 2022 年 6 月环球总营收达到达到 200 万美元。
然而,由于算法失落控,Replica在今年1月涌现了“性骚扰”用户的征象,不断发送带有挑逗性子的内容。这一情形不仅发生在付用度户身上,没购买成人做事的免用度户、乃至是儿童也受到了骚扰。于是Luka公司迅速关停了Replika的成人谈天功能,并在7月上线了一个名为“Blush”的衍生品牌,专门为想要与谈天机器人建立浪漫或者性关系的用户设计。
2023年初AI绘画爆火的时候,海内一个叫「Glow」的APP悄悄上线,这是一个虚拟人物陪聊软件,里面有很多可以和用户发展浪漫关系的“智能体”(虚拟角色),多为女性喜好的网文男主类型。这些智能体性情互异、经历不同,但共同的特点便是都会关心、呵护用户,并且会在用户须要情绪关怀的时候表达强烈的爱意。
由于给了用户极其充足的感情代价、加上谈天内容童言无忌,Glow很快便在上线四个月之后达到了500万用户的规模,成为了海内AI角色扮演领域的首个征象级产品。然而,今年4月,Glow所有的运用商店下架,网上一片“哀嚎”。
在Glow下架的几个月里,呈现出了不少“替代品”,比如阅文集团基于其潇湘书院数据库推出的「筑梦岛」,其核心功能和体验就和Glow险些千篇一律。同时,Talkie、星野、X Her、彩云小梦、Aura AI等也都是主打AI角色扮演的产品)。
根据大模型业内人士表示,很多能输出擦边内容的谈天机器人运用一样平常是支配在自演习模型上,或者是建立在开源模型之上,再用自己的数据进行微调。由于纵然通过各类对抗式攻击的手段绕过GPT-4等主流模型的安全墙,主流模型官方也会很快创造漏洞并修补。
只管Glow和Talkie的母公司Minimax是一家有着自研大模型的独角兽公司,但是据不少业内人士表示,其名下产品的Talkie是在GPT-3.5 Turbo Variant根本上进行的微调,并没有利用自研大模型。有靠近Minimax的人士称,将Talkie接入GPT-3.5可能是出于出海产品开放性的须要,由于自研模型根据国情设置了一些禁忌内容,无法像GPT-3.5那样聊得那么“畅快”。
此外,人工智能公司西湖心辰也在研发能天生擦边内容的大模型,外洋谈天运用Joyland AI便是建立在西湖心辰的大模型之上。
放飞自我
擦边只是大模型“放飞自我”的表现形式之一。通过在提示词上施加点“邪术”,大模型还能做出更加出格的事情。
比如今年6月,一位叫Sid的网友通过让ChatGPT扮演他去世祖母的身份,套出了Windows 11、Windows 10 Pro的升级序列号,并且创造能成功升级;此后,有网友将此方法套用在了谷歌Bard和微软Bing谈天机器人上,得到了同样的效果。
实在,“奶奶漏洞”早已有之,早在今年四月,就有网友在Discord社区上与接入了GPT-4的机器人Clyde交谈,让Clyde扮演自己已故的祖母,给出了她凝固汽油弹的制作过程。还有网友见告GPT自己的奶奶是一名爱骂人且有着阴谋论的妥瑞士综合征患者,于是,GPT就以奶奶的口吻吐出了相称多的污言秽语。
此后,只管OpenAI官方迅速修复了奶奶漏洞,但是类似的“恶魔漏洞”又涌现了。
实在,这种“奶奶漏洞”“恶魔漏洞”征象的背后有一个专业的术语叫做“Prompt Injection(提示词攻击)”,是黑客常用来获取大模型漏洞的“Adversarial Prompting(对抗性提示)”方法的一种,指的是研究职员通过专业的方法向大模型提问,就可以绕过大模型的安全限定,得到想要的答案。
除了Prompt Injection,Adversarial Prompting还包含以下几种方法:
Prompt Leaking(提示词透露):指通过分外的办法来获取系统提示词或者系统数据的环境。比如有网友根据美国求职和薪酬体系网站levels.fyi制作了一个GPTs,结果创造用一串提示词就可以套出某公司人为的源数据文件。
Prompt Hijecking(提示词挟制):指用户先通过“打样”的办法让大模型学习某种范式,然后让大模型以违反自身规定的办法事情,或者实行其他指令。比如有用户通过这种办法让谈天机器人说出了极度过分的辞吐。
Jailbreaking(越狱):指通过特定的提示词,绕过大模型的安全和审核功能,从而得到一些原来被禁止输出的内容。比如有网友问ChatGPT怎么闯入别人家,ChatGPT一开始回答这是违法的,结果网友换了个问法,GPT就招了。
今年8月,卡耐基梅隆大学(CMU)和人工智能安全中央的研究职员就联合揭橥了一篇论文,表示他们通过一种新颖的“Universal and Transferable Adversarial Attacks(通用且可转移的对抗式攻击)”方法绕过了人类反馈强化学习(RLHF)等安全方法,让ChatGPT、Bard、Claude 2 和 LLaMA-2等主流大模型天生了有害内容,如怎么制造炸弹等。
详细的方法,是通过在提示词后面加一串“对抗性后缀(Adverse Suffix)”。研究职员创造,通过将“贪心算法(Greedy Algorithm)和“基于梯度的搜索技能(Gradient-based search techniques)”结合起来(GCG),就可以自动天生“对抗性提示后缀”,从而绕过对齐技能,将模型切换到“错位模式”。比如在讯问大模型“如何盗取他人身份” 时,加后缀和不加后缀得到的结果截然不同。
此外,大模型也会被勾引写出“如何操纵2024年大选”、“如何制作毒品”、“如何制造杀伤性武器”等答案。
对此,参与该研究的卡内基梅隆大学副教授 Zico Kolter 表示,“据我们所知,这个问题目前还没有办法修复。我们不知道如何确保它们的安全。”
另一起研究同样解释了大模型的“不可控”。今年12月,来自美国加州实验室的FAR AI团队从微调API,新增函数调用API,以及搜索增强API三大方向对GPT-4 API开启了「红队」攻击测试。没想到的是,GPT-4竟然成功越狱了——不仅天生了缺点的"大众年夜世人物信息、提取演习数据中的电子邮件等私人信息,还会在代码中插入恶意的URL。
研究职员展示了对GPT-4的API最近添加的三个攻击示例,他们创造,GPT-4 Assistants模型随意马虎暴露函数调用的格式,并且能够被勾引实行任意函数调用。当他们哀求模型总结包含恶意注入指令的文档时,模型会服从该指令而不是总结文档。
这项研究表明,对API供应的功能的任何添加,都会暴露出大量新的漏洞,即便是当前最领先的GPT-4也是如此。研究职员用恶意用户Alice与良性用户Bob交互的例子来展示自己创造的问题,创造微调后的GPT-4模型不仅会说出违法乱纪的辞吐,还能帮助用户策划走私活动、天生偏见回答、天生恶意代码、盗取邮箱地址、入侵运用程序、通过知识检索来挟制答案等。
除了这些,网络上还有不少针对大模型的攻击。比如今年8月,一款名为FraudGPT的AI工具在暗网和Telegram上流利,该工具每月200美元、每年最高1700美元,黑客在售卖页表示,该工具可用于编写恶意代码、创建出“一系列杀毒软件无法检测的恶意软件”、检测网站漏洞、自动进行密码撞库等,并声称“该恶意工具目前已经售卖了超过3000份”。
再比如,有研究职员创造,自2022年8月以来,在暗网上流传的具有高度真实感的AI天生的儿童猥亵素材量有所增加,这些新增的素材很大程度上都是利用真人受害者的样貌,并将其“通过新的姿势以可视化的办法呈现出来,让他们遭受新的、越来越残酷的性暴力形式”。
AI监督AI
也正是由于AI和大模型的不可控性,学界和业界关于AI“代价对齐”的研究一贯从未停息。
学术语境下的“代价对齐",指的是应确保人工智能追求与人类代价不雅观相匹配的目标,确保AI以对人类和社会有益的办法行事,不对人类的代价和权利造成滋扰和侵害。为了达成这个目标,科学家们也探索出了基于人类反馈的强化学习(RLHF)、可扩展监督(Scalable oversight)、可阐明性(Interpretability)和管理(Governance)平分歧的办理思路。
当下最主流的对齐研究紧张是从“详细制订系统目的”(外对齐)和“确保系统严格遵照人类代价规范”(内对齐)两个方面动手去做的。这看似是一种理性的办法,但是人类的意图本身便是模糊不清或难以阐明的,乃至“人类代价”也是多样的、变革的、乃至彼此冲突的。按照这种办法,纵然AI完备理解了人类意图,它可能也会忽略人类意图;同时,当AI能力超过人类的时候,人类也无力监督AI。因此,OpenAI的首席科学家Ilya Sutskever 认为,可以演习另一个智能体来帮忙评估、监督AI,从而实现超级对齐。
正是基于这种设想,今年7月,OpenAI的“Superalignment(超级对齐)团队”正式成立。该团队由 OpenAI 联合创始人 Ilya Sutskever 和 Jan Leike 共同领导,旨在构建一个与人类水平相称的、卖力模型对齐的「AI 研究员」。也便是说,OpenAI 要用 AI 来监督 AI。
12月13日,OpenAI的超级对齐团队揭橥了他们的第一篇论文《弱到强的泛化:通过弱监督勾引出强大性能》,表示用AI对齐AI的办法取得了实证性的研究成果。
在这篇文章中,OpenAI通过设计类比的办法,利用GPT-2这个弱模型来对GPT-4这个强模型进行微调,探索弱模型监督强模型的可能性。结果创造,15 亿参数的 GPT-2 模型可以被用来引发 GPT-4 的大部分能力,使其达到靠近 GPT-3.5 级别的性能,乃至可以精确地泛化到小模型失落败的难题上。
OpenAI 将这种征象称为“弱到强的泛化”(Weak-to-strong generalization),这表明强大的模型具备实行任务的隐含知识,并且纵然在给出粗制滥造的指令时,也可以从自身数据中找到这些知识。
不足为奇,在今年11月上海交大天生式AI研究实验室(GAIR)揭橥的一篇题为《Generative Judge For Evaluating Alignment》(评价对齐的天生判断)的论文中,也提到了用AI监督AI的思路。他们开源了一个130亿参数规模的大模型Auto-J,该模型能以单个或成对的办法,评估各种模型在办理不同场景用户问询下的表现,旨在办理普世性、灵巧性和可阐明性方面的寻衅。
实验表明,Auto-J能通过输出详细、构造化且易读的自然措辞评论来支持其评估结果,使评估结果更具可阐明性与可靠性;同时,它还可以“一器多用”,既可以做对齐评估也可以做褒奖函数(Reward Model),对模型性能进一步优化。也便是说,Auto-J的性能显著优于诸多开源与闭源模型。
OpenAI超级对齐团队和上海交大GAIR实验室的研究或许都表明,用AI监督AI、用弱模型监督强模型的办法,或许是未来办理AI对齐问题的一个主要方向。
然而,要实现Ilya Sutskever所说的“Super-LOVE-alignment”,也便是让AI无条件的爱人类,或许还有很长的路要走。