AI Agent发展简史,从哲学思想启蒙到人工智能实体落地想理解AI智能体的发展进程?这篇AI Agent发展简史必读!
终于有人把AI Agent的发展史讲明白了,一定要收藏AI Agent发展简史,解密AI智能体从哲学启蒙到落地人工智能的进程全面理解AI智能体发展进程,一定要看这篇AI Agent发展简史你可能想不到,AI Agent最早涌现于《道德经》和亚里士多德哲学
文/王吉伟
自AutoGPT火出圈后,业内对AI Agent的谈论从没停滞过。
Lilian Weng在其六千字博文中对AI Agent的系统先容,直接对当代基于大措辞模型的AI Agent做了全新定义,至此“LLM+影象+任务方案+工具利用”就成了全新的AI Agent四件套。
搞懂了AI Agent事理,业内外对付AI Agent探索与互换自然就更多。尤其是经历了一段韶光的“LLM落地难”声音的洗礼后,现在只要谈到AI Agent,创业者们就会双眼放光,投资人们也是激情亲切飞腾,大企业们更是跃跃欲试。
由此,AI Agent成了继LLM之后产学研用各界无人不知的崭新焦点。
从大家皆谈大措辞模型,到张口便是AI Agent,意味着大家对LLM的关注真正落点到了运用层,如何落地也真正成了所有领域探索LLM的压轴戏。
谈到AI Agent,很多人都认为它是LLM的产物,毕竟大部分人打仗Agent是从基于GPT-4的AutoGPT、BabyGPT、GPT-Engineer等开源Agent程序开始的。
但理解AI Agent的人该当知道,Agent观点并不是当今的产物,而是伴随人工智能而涌现的智能实体观点不断进化的结果。
有人认为AI Agent起源于20世纪80年代Wooldridge等人将Agent引入到人工智能,也有人认为最早的Agent观点该当是上世纪50年代阿兰图灵把“高度智能有机体””扩展到了人工智能。
也有论文(见复旦大学《基于大型措辞模型的Agent的兴起和潜力:综述》,文末可获取),将最早的Agent观点追溯到了丹尼斯·狄德罗的“聪明的鹦鹉”学说。
如果从哲学启迪的角度来看 Agent,大概可以上溯到公元前280年到公元前485年之间的庄子、亚里士多德、老子等思想家的学说与著作。
从这些不雅观点、学说与论文中,沿着哲学思想到人工智能实体的发展方向,大体可以梳理出一个AI Agent发展的大体脉络。
在此根本上,王吉频道总结了这篇AI Agent发展简史,以让大家更全面地理解AI Agent。
全文约7000字,文章略长,建议大家先收藏再阅读。如果觉得对你有用,不要忘了点赞、转发和收藏。
起源:哲学启蒙阶段
“Agent”是一个有着悠久历史的观点,在许多领域都得到了探索和解释。
关于AI Agent的最早起源,还要从能够启示人类思考的哲学领域开始探寻。一些论文将其追溯到公元前350年旁边的亚里士多德(Aristotle)期间,当时的一些哲学家就曾在哲学作品描述过一些拥有希望、信念、意图和采纳行动能力的实体。
若从古代哲学家的思想著述中探求Agent踪迹,还可以把韶光连续上溯到公元前485年旁边的中国春秋时期,老子在其对后世影响深远的思想巨著《道德经》中也可以看到智能体的影子。
该书在四十二章写道:“道生一,生平二,二生三,三生万物”。用现在打算科学眼力来看,它所描述的”道”或许正是一个生生不息、原谅万物并且能够自身蜕变的实体,这种实体小到种子的生发兴废,大到宇宙天体的周天运转,这是范例的自主智能体。
韶光再晚一些的庄子,在“庄周梦蝶”的时候,他不知道自己是庄子还是蝴蝶,分不清是梦境还是现实。如果用当代打算科技技能来看,这个梦可以理解为元宇宙,那么梦里的蝴蝶包括所有具备生命的物体,便都如“西部天下小镇”游戏那样的天生智能体。
▲ 图片由必应天生,关键词:庄周梦蝶
韶光来到18世纪,法国思想启蒙运动期间的丹尼斯·狄德罗(Denis Diderot )也提出了类似的不雅观点:如果鹦鹉可以回答每个问题,它就可以被认为是聪明的。虽然狄德罗在著作中写的是鹦鹉,但谁都能体会到这里的“鹦鹉”并不是指一只鸟,而是突出了一个深刻的观点,即高度智能的有机体可以有着类似于人类的智能。
是不是很故意思,我们认为近代人们在科技取得一定进展后才设想的AI Agent,实在古人早就思考并探索过。
或许正是由于这种思想,造就了人类对付各种工具的极致追求,出身了春秋战国期间鲁班打造的能飞三天三夜的“木鹊”与墨家打造的机关城,三国期间的木牛流马和指南车,唐代“酌酒行觞”的木人“女招待”,以及明朝帮人干活的多种“机关转捩”木头人。
这些人类早期涌现的自动化工具,并非具备剖析及推理能力并能够采纳行动的智能体。但自古至今一贯存在的这些想法与做法,正好也反响了人类数千年来对付智能体或者说自动化的持续追求。
当然通过这些思想我们也能获悉,Agent的哲学观点泛指具有自主性的观点或实体,它可以是人造的物体,可以是植物或动物,当然也可以是人。
发展:人工智能实体化
不管最早的Agent描述出自哪里,这些哲学思想都不同程度启示了近代Agent的发展。
20世纪50年代,阿兰图灵(Alan Turing)把“高度智能有机体”观点扩展到了人工实体,并提出了著名的图灵测试。这个测试是人工智能的基石,旨在探索机器是否可以显示与人类相称的智能行为。
这些人工智能实体常日被称为“Agent”,形成了人工智能系统的基本构建块。至此,人工智能领域提到的Agent,常日是指能够利用传感器感知其周围环境、做出决策、然后利用致动器采纳相应行动的人工实体。
随着人工智能的发展,术语“Agent”在人工智能研究中找到了自己的位置,用来描述显示智能行为并具有自主性、反应性、主动性和社交能力等本色的实体。此后,Agent的探索和技能进步成为人工智能领域的焦点。
50年代末到60年代是人工智能的创造期间,所涌现的编程措辞、书本及电影到现在还在持续影响更多的人。
在经历第一次人工智能寒冬后,80年代涌现了一股人工智能热潮。这段韶光的各项研究都有所打破,来自政府等机构的投资也开始增多,研究者对AI Agent的探索也在逐步增加。
但这股热潮仅坚持了7年,到1987年迎来了第二次人工智能寒冬。
这股寒潮延续了很多年,只管在这期间大部分机构都短缺资金支持,人工智能还是沿着既有技能路线刚毅发展。
个中,AI Agent就在1995年被Wooldridge和Jennings定义为一个打算机系统:它位于某个环境中,能够在这个环境中自主行动,以实现其设计目标。他们还提出AI Agent应具有自主性、反应性、社会能力与主动性等四个基本属性。
而在AI Agent正式被经济学收受接管后,它也被进一步定义为具备感知其环境并采纳行动以最大限度地提高成功机会的系统。根据这个定义,能够办理特定问题的大略程序也是“AI Agent”,所往后来能够在各种棋类游戏中与人类对弈的机器人也算是AI Agent的一种。
AI Agent范式将AI研究定义为“智能代理研究”,它研究各种智力,超越了研究人类智能。
在AI Agent被授予“四种基本属性”期间,1993年到2011年,涌现了很多基于当时AI技能且令人印象深刻的Agent类项目。
这些项目的涌现韶光和简介如下:
1997年:深蓝(由IBM开拓)在一场广为人知的比赛中击败了天下国际象棋冠军加里·卡斯帕罗夫,成为第一个击败人类国际象棋冠军的程序。1997年:Windows发布了语音识别软件(由Dragon Systems开拓)。2000年:Cynthia Breazeal教授开拓了第一个可以用面部仿照人类情绪的机器人,它拥有眼睛、眉毛、耳朵和嘴巴,被称为Kismet。2002年:第一个Roomba被开释。2003年:美国宇航局将两辆火星车(勇气号和机遇号)降落在火星上,它们在没有人类干预的情形下在火星表面航行。2006年:Twitter,Facebook和Netflix等公司开始利用AI作为其广告和用户体验(UX)算法的一部分。2010年:Microsoft推出了Xbox 360 Kinect,这是第一款旨在跟踪身体运动并将其转化为游戏方向的游戏硬件。2011年:一台名为Watson(由IBM创建)的NLP打算机被编程来回答问题,在电视转播的智力比赛节目《Jeopardy》中降服了两位前冠军。2011年:苹果发布了Siri,这是第一个盛行的虚拟助手。进化:AI Agnet的演化
伴随着AI 技能的发展,至2000年旁边,Agent已经衍生出不少种类。
根据其感知的智能和能力程度的不同,罗素、诺维格、彼得等人在《Artificial Intelligence: A Modern Approach》一书中将AI Agent分为以下五类:
大略反射智能体(SIMPLE REFLEX AGENTS):一种大略的代理类型,它基于当前的感知而不是基于感知历史的别的部分。这种类型的问题包括智力非常有限,对状态的非感知部分一无所知,天生和存储规模巨大以及无法适应环境变革。
基于模型的智能体(MODEL-BASED AGENTS):这种代理利用条件操作规则,通过查找许可知足基于当前情形的条件的规则来事情,常日由两个主要成分组成,即模型和内部状态。它可以通过获取有关天下如何演化以及代理的操作如何影响天下的信息来更新代理的状态。
基于目标的智能体(GOAL-BASED AGENTS):此类型根据其目标或空想情形做出决定,以便它可以选择可以实现所需目标的操作。这种智能体可以通过搜索以及不同的操持,具备思考一长串可能的行动来确认实在现目标的能力,使代理具有主动性。
基于实用程序的智能体(UTILITY-BASED AGENTS):公用奇迹代理的终极用场是其构建块,当须要从多个替代方案中采纳最佳行动和决策时利用。它考虑了代理的幸福感,并给出了代理由于效用而有多幸福的想法,因此具有最大效用的行动。
学习型智能体(LEARNING AGENTS):具有从过去的履历中学习的能力,并根据学习能力采纳行动或做出决定。它从过去得到根本知识,并利用这些学习来自动行动温柔应。一样平常由四部分组成,分别是学习元素、批评者、性能元素和问题天生器。
从这些分类和基本定义而言,很多AI工具以及早期的智能程序都可以归类为Agent的一种。包括早期的IBM用于象棋比赛的深蓝以及后文出场的AlphaGO,都算是基于当时最新AI技能的AI Agent。
当代:基于LLM的智能体
在2012年的ImageNet打算机视觉寻衅赛中,AlexNet卷积神经网络的深度学习模型取得了第一名,深度学习从此真正在人工智能领域大显技艺。
2016年,AlphaGO(谷歌专门从事围棋游戏的AI Agent)将击败欧洲冠军(范慧)和天下冠军(李世石),并很快被自己的兄弟(AlphaGo Zero)打败。
2017年,谷歌提出transformer。
2018年,谷歌发布基于Transformer模型的BERT,拉开了大措辞模型序幕。
2019年,谷歌AlphaStar在视频游戏《星际争霸2》上达到了Grandmaster,表现优于除0.2%以外的所有人类玩家。
2019年,OpenAI发布GPT-2的自然措辞处理模型,并分别在2020年和2022年发布了GPT-3、DALL·E 2及GPT-3.5,ChatGPT的火爆为AI Agent在大措辞模型时期的发展与运用供应了新的契机。
从2023年1月开始,环球厂商发布了多个LLM,个中包括LLaMA、BLOOM、StableLM、ChatGLM等多个开源LLM。
与此同时,环球科技厂商所推出的数以千计的LLM,为AI Agent在各领域多元化运用供应了更广泛的根本。
2023年3月14日,OpenAI发布GPT-4。3月尾,AutoGPT横空出世,迅速火遍环球。
Auto GPT是Github上由OpenAI推出的一个免费开源项目,结合了GPT-4和GPT-3.5技能,通过API创建完全的项目。
与ChatGPT不同的是,用户不须要不断对AI提问以得到对应回答,在AutoGPT中只需为其供应一个AI名称、描述和五个目标,AutoGPT就可以自己完成项目。它可以读写文件、浏览网页、审查自己提示的结果,以及将其与所说的提示历史记录相结合。
AutoGPT也是OpenAI的一个实验性项目,用以展示GPT-4措辞模型的强大功能。由此开始,更多人在理解与体验AutoGPT的同时,也逐渐认知到了AI Agent。
由此开始,基于LLM的AI Agent开始雨后春笋般呈现,涌现了Generative Agent、GPT-Engineer、BabyAGI、MetaGPT等多个项目,这些项目的爆发将LLM的发展与运用带入了新阶段,也将LLM的创业与落地引向了AI Agent。
5月,OpenAI拿下新一轮3亿美元融资后,创始人Sam Altman透露更加关注如何利用谈天机器人来创建自主AI Agents,并会将干系功能支配到ChatGPT助手中。
6月,扎克伯格在全体员工会议上宣告了一系列处于不同开拓阶段的技能,个中一个便是将发布能为用户供应帮助或娱乐功能的具备不同个性和能力的AI Agents。
6月尾,OpenAI Safety团队卖力人Lilian Weng揭橥了一篇名为《LLM Powered Autonomous Agents》的文章,详细先容了基于LLM的AI Agent,并认为这将使LLM转为通用问题办理方案的路子之一。
至此,人们终于对AI Agent有了全面的理解,AI Agent的神秘面纱终于被揭开。
人工智能领域对付AI Agent的探索从未停滞,在每个AI技能得到全新打破之后都会有组织将其探索与运用纳入新课题。以AlphaGo为代表的深度学习与神经网络技能崭露锋芒后,就涌现了基于深度学习及神经网络的Agent,被运用于游戏、医疗等诸多领域。
而近几年大措辞模型得到打破,在谷歌发布Bert及OpenAI 发布GPT-2后,很多组织都开始与其互助开始打造基于LLM的Agent。
我们还在评论辩论AI Agent的时候,外洋已经涌现很多AI Agent框架与产品。比如在8月末刚完成1500万美金融资的Voiceflow,现在已是最受开拓者欢迎的Al Agent构建平台之一,有超过13万团队在这里高效协同构建自己的Al Agent。
从这类AI Agent构建平台来看,目前已经有不少组织正在或者已经构建自己的AI Agent,且每个组织都可以面向不同业务场景的多个Agent。
王吉伟频道也在之前盘点了环球60个AI Agent项目,目前已经提出项目清单1.0,这个名单将会不断迭代,也欢迎已经推出AI Agent的团队或者AI Agent爱好者,共同完善这份清单。(PS:回答agent+,获取完全名单图。)
定义:当代AI Agent特性
Lilian Weng在其博文《LLM Powered Autonomous Agents》 中,对基于LLM的AI Agent 做了系统综述。(PS:嫌麻烦不想找的朋友,后台回答agent+获取该文及翻译。)
原文地址:https://lilianweng.github.io/posts/2023-06-23-agent/
她将Agents定义为LLM、影象(Memory)、任务方案(Planning Skills)以及工具利用(Tool Use) 的凑集,个中 LLM 是核心大脑,Memory、Planning Skills 以及 Tool Use 等则是 Agents 系统实现的三个关键组件,并对每个模块下实现路径进行了细致的梳理息争释。
▲ Agent系统架构图,出自博文《LLM Powered Autonomous Agents》
从文章中不丢脸出,目前我们所说的AI Agent实质是一个掌握LLM来办理问题的代理系统。LLM的核心能力是意图理解与文本天生,如果能让LLM学会利用工具,那么LLM本身的能力也将大大拓展。AI Agent系统便是这样一种办理方案,可以让LLM“超级大脑”真正有可能成为人类的“全能助手”。
在AI发展到大措辞模型时期,很多AI工具看起来已经具备了初步的Agent能力。虽然AI工具包括机器人和Agent都是旨在自动化任务的软件程序,但特定的关键特色将AI智能体区分为更繁芜的AI 软件。
业内认为,当AI工具具备以下特色时,就可以将该工具视为AI Agent:
自治(Autonomy):AI 虚拟智能体能够独立实行任务,而无需人工干预或输入。知觉(Perception):智能体功能通过各种传感器(如摄像头或麦克风)感知和解释它们所处的环境。反应(Reactivity):AI 智能体可以评估环境并做出相应的相应以实现其目标。推理和决策(Reasoning and decision-making):AI 智能体是智能工具,可以剖析数据并做出决策以实现目标。他们利用推理技能和算法来处理信息并采纳适当的行动。学习(Learning):可以通过机器、深度和强化学习元素和技能来学习和提高他们的表现。通信(Communication):AI 智能体可以利用不同的方法与其他智能体或人类进行通信,例如理解和相应自然措辞、识别语音以及通过文本交流。以目标为导向(Goal-oriented):它们旨在实现特定目标,这些目标可以通过与环境的交互来预定义或学习。在这个更为广义的特色之下,今后AI Agent存在的环境将更加宽泛,种类也将更加繁多。
与此同时,在大措辞模型的加持之下,AI Agent也逐步衍生出了自主智能体(Autonomous Agent)和天生智能体(Generative Agent)。
自主智能体如AutoGPT,能够根据人们通过自然措辞提出的需求,自动实行任务并实现预期结果。在这种互助模式下,自主智能体紧张是为人类做事,更像是一个高效的工具。
大家目前所聊的智能体多数是基于LLM自主智能体,它已被认为是通向通用人工智能(AGI)最有希望的道路。
如果说AutoGPT拉开了自主智能体的帷幕,今年4月份斯坦福和谷歌的研究者共同创建的“西部天下小镇(Westworld simulation)”则开启了天生智能体之路。小镇里的25个AI Agent,每天都在乐此不疲地闲步、约会、谈天、用餐以及分享当天的新闻。
▲ 天生智能体Westworld simulation运行截图
天生智能体基于GPT-3 、BERT等LLM构建,以自然措辞存储代理体验的完全记录。天生智能系统统构造包括三个紧张组件:不雅观察、方案和反思。这些组件协同事情,使天生代理能够天生反响其个性、偏好、技能和目标的现实且同等的行为。此外,此体系构造许可用户、代理和其他代理之间进行自然措辞通信。
大略的讲,天生智能体就像美剧《西部天下》中的人形机器人以及《失落控玩家》中的智能NPC,它们在同一环境中生活,拥有自己的影象和目标,不仅与人类交往,还会与其他机器人互动。
未来:AI Agent无处不在
Agent的核心在于LLM,可以说大措辞模型的能力决定了AI Agent的能力半径,以是目前基于GPT-4的Agent表现得更加智能。未来随着更多大措辞模型的完善、迭代与优化,基于这些LLM构建的Agent自然能力也会更强。
往后的AI Agnet,将紧张呈现以下几种特色:
更加智能、自主并拥有更强适应性。将能够学习和改进自己的行为,根据不同的情境和用户做出最优的决策,以及处理不愿定性和繁芜性。更加人性化、友好和可信赖。能够理解和表达情绪,建立和坚持与用户的关系,以及遵守道德和社会准则。更加多样化、专业化和协作化。能够针对不同的领域和任务供应专业的做事或帮助,以及与其他AI Agent或人类进行有效的协作和折衷。Agent将会成为大模型在各行业及领域运用的主体形式,未来LLM的开拓与运用的都将环绕Agent以工具或者助手的形式呈现。随着Agent以标准化产品形态涌现,广大组织引入与运用AI Agent将变得更加大略。
干系企业与组织也可以基于引入的大措辞模型或者垂直领域模型构建面向领域的Agent,以帮助客户高效开释LLM的能力。也可以构建内部或者面向客户的AI Agent平台及社区,方便自身及客户运营中随时构建所需的Agent。
更多的AI Agent构建平台,也将匆匆使大量Agent的涌现,个人构建与运用Agent也将更加随意马虎。未来只要大家乐意,随时都可以通过各种Agent平台打造适宜自己的个性化Agent,通过更加个性化的功能与做事增强沟通和协作、拓展知识和技能等。
乃至还能在不同业务场景构建多个不同的Agent,并让这些Agent协同事情,多Agent系统协同可以输出更加准确的结果以及完成更加繁芜的任务。
AI Agent忽略行业与业务场景,只要能运用LLM的地方都可以构建相应的Agent。它可以运用于各行业,例如教诲、医疗、金融、制造、娱乐等,帮助提高效率、降落本钱、创造代价。
未来,AI Agent可能会更加智能、自适应、多样化,能够处理更繁芜的问题和场景,与人类形成更紧密的互助和共生。
如Lilian Weng在博文中所说,AI Agent可以让LLM从“超级大脑”进化为人类的“全能助手”,这意味着基于LLM的Agent助手往后将会做事更多的人与组织。
随着AI Agent的广泛运用,大措辞模型时期的人机交互也将升级人类与AI Agent的自动化互助体系。这种新型人机互助可以称之为人机警能体,它将推动人类社会的生产构造进一步升级,进而影响社会的各个方面。
同时,一个具备互换能力并能自主/自动实行任务的智能网络将是互联网的下一阶段,AI Agent将是人类与之交互和实行任务的智能工具。
未来的趋势,AI agent大概率会涌如今人类事情、学习、生活、娱乐的各个场景中,大家都将配备一个基于AI agent系统的智能助手,《钢铁侠》《星际穿越》《星球大战》等电影中人机协同的场景将会真正变成现实。
这,又将是一个多大量级的市场。
写在末了:本来还想在这篇文章中磋商“Agent游戏的进化”与“人类与智能体的界线”这两个话题。限于篇幅以及这两个话题与本文的干系性,只能在新的选题中与大家磋商了。对这些感兴趣的朋友,可以加微信mcjave与我互换。
参考资料:复旦大学NLP团队论文《基于大型措辞模型的Agent的兴起和潜力:综述》
全文完
【王吉伟频道,关注AIGC与IoT,专注数字化转型、业务流程自动化与RPA,欢迎关注与互换。】