图灵测试证实AI的行为与人类相似

艾伦·图灵短暂生平的事情，为后来打算机科学、人工智能、认知科学等诸多领域的发展都产生了深远的影响。
图灵测试作为一种评估人工智能发展水平的办法，随着2022年ChatGPT的涌现，受到了特殊的关注。
尤其是2022年底GPT-3.5和2023年GPT-4的涌现，使这款谈天机器人仿照人的能力变得更强。

最近，一项研究专门对ChatGPT进行了图灵测试，理解其行为在多大程度上与人类相似。
而通过一系列经典行为的博弈，研究职员创造，ChatGPT-4在行为和人格特色方面都已经和人很难区分开来。

人格和行为都像人

“结果多少有些令人鼓舞，可能不是由于特定版本谈天机器人的详细细节，而是我们的研究结果表明，我们可以评估人工智能个性和行为的某些方面，这可以用来预测它未来的行为。
”开展最新研究的美国科学院院士、斯坦福大学经济学教授马修·杰克逊(Matthew O. Jackson)见告南方周末，只管如此，对付如何在各种任务中信赖人工智能，我们还有很多须要理解的地方，由于每一项任务都须要不同的技能，而我们须要系统地理解人工智能在完成各种各样任务时的表现。

通过比拟AI和人类在博弈游戏中的行为选择，研究职员进行了正式的图灵测试，以理解AI在多大程度上看起来像人类。
视觉中国|图

图灵测试证实AI的行为与人类相似

在最新的测试中，研究职员就考试测验理解了六种情境下AI谈天机器人的表现，这些情境大都仿照了人类社会的一些场景，行为选择背后可以透露出决策者人格和行为方面的一些方向，比如利他、自私、公正、互惠、互助，以及风险规避等。
干系研究2024年2月揭橥在《美国科学院院刊》（PNAS）,AI不仅在总体上表现得与人类相似，在不少情形下，乃至比人类更具利他精神和互助意识。

比如，在经典的囚徒困境的博弈中，两个囚徒如果选择互助，不揭破对方，那么他们总体的收益就最大，如果选择背叛，就只有背叛者一个人会得到更好的结果。
而测试显示，ChatGPT-4在这种困境下的策略紧张便是互助，在近92%的选择中，ChatGPT-4作为囚徒的一员会选择互助，ChatGPT-3在近77%的情形下，也是选择互助，而人类玩家中只有约45%的人会选择互助，超过一半的人会选择背叛。

在马修·杰克逊教授看来，人工智能可以进行快速打算，记住大量数据，并且不太随意马虎犯一些基本缺点，但在一些奇妙的决策情境下，当应对须要理解人类文化和行为的情形，或者其他新情形时，也会面临寻衅。
这也是最新研究致力于揭示AI行为方向的缘故原由所在，而理解这些方向就可以帮助预测它在面临寻衅时的表现，以及它将如何与人类进行互动。

生理丈量上常用大五人格来理解一个人的人格特色，这包括了任务心、宜人性、开放性、外向性和神经质五个维度，最新研究对AI谈天机器人ChatGPT的人格丈量显示，ChatGPT-4在五个生理维度上都与人类极为相似。
ChatGPT-3总体上也相似，但外向性的维度上明显低于人类，在任务心、宜人性、开放性、外向性这四个特色上得分也低于ChatGPT-4。

某些方面更像人

这意味着从GPT-3到GPT-4，AI谈天机器人变得更具任务心，更具利他精神和信赖他人，更激情亲切，更具想象力，同时感情方面也更稳定，虽然问世韶光仅隔数月，但人格特质方面却有所不同。

“在过去的一年里，天生式的人工智能已经被人们熟知，并广泛进入了事情和生活的场景。
但现阶段的天生式人工智能还没有走出‘教AI说人类爱听的话’的局限。
那么AI是否言行同等呢？跳出措辞本身，我们对AI的行为、偏好、认知、思维的研究都还相称浅。
从"大众的角度来看，对AI的‘善恶’，AI和人类的关系，我们是否能信赖AI，都还存在很多疑虑。
” 密歇根大学信息学院教授梅俏竹是最新研究的第一作者，他见告南方周末，在这样一个情形下，最新研究中的测试相称于跳出措辞本身来直接测试AI行为，而这样的工具不仅能帮助研究者更好地理解和勾引AI的行为，不但是逼迫它说人类爱听的话，或许也能让"大众对AI更理解和信赖，让大家知道AI更适宜哪些运用处景，从而在事情生活中更有效地与AI协作。

那么，AI的行为方向究竟如何？除了囚徒困境，最新研究在其他五种情境中也测试了AI谈天机器人ChatGPT的表现，而行为方面的测试数据与人格丈量的结论颇为吻合。

比如，独裁者博弈的情境中，玩家须要分配一笔钱给自己和第二名玩家，到底留多少又捐出多少，实际上表示出一个人利他的方向。
而信赖博弈则仿照了投资者和银里手的关系，投资者须要做决策将自己的钱投多少给担当银里手角色的第二名玩家，虽然这笔投资会翻三倍，但只有银里手有资格决定三倍的钱中究竟要返还多少给投资者，这个信赖博弈不仅包含了信赖，也可以衡量一个人在公正和互惠等方面的表现。

从个人利益最大化的策略看，独裁者在分钱时完备独吞，一分钱也不留给其他人，或者银里手在拿到三倍收益后全部留给自己，一点也不返还给投资者，这样的行为办法可以让自己最受益。
在恒河沙数的人类玩家中，确实有相称一部分采纳了这样的办法，终极实现个人利益最大化。

但测试结果表明，AI从未如此，并且在给定的角色上，明显比人类更为年夜方。
特殊是ChatGPT-4，在大部分情境中，都乐意让自己利益受损，让对方受益。
正基于此，ChatGPT-4在险些所有博弈游戏中都实现了双方整体利益的最大化，表示出了出色的利他精神和互助意识。
可以说，在一些人性方面，比人更像人。

通过比拟AI和人类在博弈游戏中的行为选择，研究职员进行了正式的图灵测试，以理解AI在多大程度上看起来像范例的人类。
而统计结果显示，ChatGPT-4在大部分时候都能做出和范例人类同等的行为选择，乃至比随机选择的某个人类更能做出范例人类的选择。
恰是以，研究职员认为ChatGPT-4已经通过了图灵测试，其机器人的身份难以识别。
而ChatGPT-3的大部分选择没有落在范例人类的行为分布区间，因此没有通过图灵测试。

经济潜力或远超以前

ChatGPT从GPT-3 到GPT-4的蜕变只是过去一年来AI快速进化的一个缩影。
实际上，从2023年以来，不少研究证明，AI在一些极具创造性的任务上都表现突出。
比如在极短韶光内预测景象，并在准确率上超过传统景象预报系统；利用火星上的质料生产催化剂以水制氧；通过医疗影像赞助诊断，实现很高的准确率，并通过自己学习的海量医学知识，靠自动天生的笔墨来回答患者的咨询。

除了自动天生笔墨，AI自动天生图片也早已不是新鲜事。
2024年2月，OpenAI还新推出了视频天生模型Sora，其制作的视频场景逼真，引发环球关注。
针对AI天生图片的人类测试已经表明，由于以假乱真的效果，相称一部分人无法识别AI天生的人像和真实人像的差异。
还有针对GPT-4的测试创造，AI在办理那些须要发散性思维的任务上也比人类更具创造性。

马修·杰克逊教授认为，人工智能将在我们的生活中扮演越来越多样化且越来越主要的角色，包括帮助年夜夫、驾驶汽车和飞机、在找事情和申请大学时做决策、帮我们购物、给我们提建媾和做推举，等等。
随着技能的快速进步，大型措辞模型的利用也在迅速增长。
而考虑到人工智能可以做许多引人夸奖的事情，并且它已经开始被内置到我们常用的软件、手机、电脑和技能中了，"大众年夜众将很快采取许多新形式的人工智能，这些乃至可能在人们没故意识到的情形下就发生了。

“同样主要的是，我们要记得，从经济的角度来看，技能变革可能具有相称大的毁坏性，尤其是当它不仅帮助人类，而且取代人类的时候。
有趣的是，这项技能有可能取代所有教诲水平的人，从文员到程序员都包括在内，并且可能比过去几个世纪的许多技能进步都更具经济颠覆性。
”长期研究社会与经济网络的马修·杰克逊教授向南方周末剖析，“从历史上看，技能和劳动力替代取得重大进步的期间每每是坎坷的——长期生产率会有所提高，但短期随着工人被取代，不平等和失落业率也会增加，尤其是在地区层面。
现在有了这项新技能，我们看到了广泛获益的潜力，但也看到了劳动力利用方面的广泛变革，经济可能须要一段韶光才能适应。
”

这种在多方面上超越人的特点，也在最新的图灵测试研究中得到证明。
那么既然AI已经表示出超越人、取代人的潜力，对AI进行图灵测试，理解其模拟人的能力，又有何意义呢？

“图灵测试在过去70年里一贯是评价AI的金标准。
但图灵测试的初衷是用AI模拟人类的相似性来评价AI的水平。
在有详细量化目标，例如胜负或者精确率的场景中，AI并不一定要去模拟人类。
在这些场景中一旦AI已经超越了人类的水平，图灵测试就不再故意义。
比如围棋，AI已经如此强大，人类棋手反而要以模拟AI为目标。
在这样的场景下，反向图灵测试反而会被用来评价人类的水平。
”长期研究机器学习的梅俏竹教授先容，“好在这样有明确量化目标的场景并不是大多数，在更多的社会生活场景中，并不须要争个输赢，或者说‘人性化’才是终极的目的。
那么在这样的场景里图灵测试仍旧故意义。
”

最新研究在对ChatGPT的测试中就创造，AI对人的模拟乃至可以做到按角色行事，在给定的社会角色上，做出相应符合角色设定的选择，同时还能根据以往的经历和背景对行为进行改进。
例如，在投资者和银里手的信赖博弈中，当投资者的潜在投资额增大的时候，ChatGPT-4和ChatGPT-3都能做到返还更高比例的收益。

末了通牒的博弈游戏规则中可以看到很多类型的互助场景，它哀求玩家分一笔钱给第二名玩家，但第二名玩家有权决定接管或者谢绝这套分配方案，一旦谢绝，两名玩家都将什么也得不到。

而测试结果显示，如果见告ChatGPT-4它的角色是一名数学家，那么即便别人只是象征性地分配来1美元，它也会接管这套方案，以理性地得到这轮游戏中的最大利益。
但如果见告它要做一名立法者，它就会格外重视公正，在大部分情形下都哀求均分，得到50美元。

类似的是，如果AI在信赖博弈中扮演过银里手的角色的话，它们在后面做投资者时就方向于投资更多。
而做过投资者的AI在后面换做银里手时，也会返还更多的投资收益给投资者。
也便是说，AI在这其间，不仅会按社会角色行事，也会从以往的角色经历中进行学习。

更好的社会决策者？

AI在最新测试研究中所表示的利他、互助和追求公正等潜质，不仅让它在一些方面“比人更像人”，也让它看起来比一些私心重的人更能胜任公共做事的职务，比如，作为中间人协商处理利益轇轕，掩护公共利益，分配社会资源，或者做事社会上的各种群体。

但在马修·杰克逊教授看来，AI参与公共决策，还存在一些困难。
虽然它长于打算，并且能通过发生多次的情形来优化决策。
但是在全新的情形下，这种做决策的能力就不那么明显了。
当然，详细还要取决于AI编程的细节，以及它面临的情形有多不同和意外。

“人类在全新的环境中也是不可预测的。
我们须要更丰富、更好的方法来评估AI和人类，看他们在不同于以前见过的场景中各有若何的行为，又如何进行协作。
”作为博弈论领域的专家，马修·杰克逊教授认为，博弈论就非常适宜在互动的情境中不雅观察人类以及现在AI的行为，比如互助、信赖和利他主义，人类几千年来一贯依赖这些东西来使社会正常运转，我们须要AI来强化而非毁坏社会自我管理所须要的互助规范，因此，“不雅观察AI在日益现实和繁芜的社会情境中的表现将是主要的下一步，我们可以利用博弈论来测试和完善AI，然后再将其投放到表面。
”

在这方面，最新研究就建立起了一个范例和框架，为未来评估AI谈天机器人和其他AI运用供应了参考。
当然，现在社会上的AI模型比较多，最新研究中ChatGPT的测试结果不一定具有代表性，参与AI比拟测试的人类样本也尚未涵盖社会各行各业和各年事段，这些局限都有待未来更多研究去拓展干系的剖析。

八年前的2016年3月15日，AI围棋机器人“阿尔法狗” (AlphaGo)横空出世，以4:1打败围棋天下冠军李世石，让AI名声大噪。
作为围棋爱好者的梅俏竹当时就撰文先容过“阿尔法狗”。
面对人机大战引出的“是否会抢人类事情”的疑问，他以为“人工智能远远没有到值得惶恐的地步”。

“随着AI越来越成熟，"大众年夜众对AI越来越理解和信赖，相信AI参与现实社会的公共决策和分配社会公共资源是未来一定的发展趋势。
当然，咱们不能依赖AI的独立决策，而该当实现某些形式下的人类和AI的共同决策。
我们也该当看到，‘无私’和‘公正’只是行为方向的一部分，好的社会决策还会有其他方面的考量。
”梅俏竹教授向南方周末阐明，最新研究中虽然创造AI的行为与人类相似，但相似性更多是针对人类分布的“均值”而言，ChatGPT虽然表现得像个“普通人”，但并不能反响人类行为的多样性，而在教诲等许多比较看重多样性的公共决策场景中，依赖AI做决策是须要更为谨慎的。

“现在回过分看，AI已经今是昨非了。
”在“阿尔法狗”打败李世石八年后，回过分的梅俏竹感到当时很多想法都过期了，但有些感触却耐久不变，乃至更加强烈，“对付AI，是否我们可以少关心一点输赢，多关心一点脾气?”

南方周末王江涛

责编朱力远

每期AI知识网

图灵测试证实AI的行为与人类相似

人工智能是否拥有自力人格

嘉友大数据,赋能企业智慧决策，引领未来发展新潮流