报告显示,在图像识别、阅读理解、大略运算、多措辞互译等较为根本的任务上,AI已经全面超越人类水平,可以进行大规模利用。斯坦福大学的学者们认为,是时候让AI寻衅更加困难的任务,发挥更大的潜力了。
目前,AI在竞赛级别的数学问题以及更高难度的抽象推理演绎上还没有降服人类最聪明的大脑,科学家们认为这该当成为AI下一步努力的方向。
美国斯坦福大学 据视觉中国
AI发展迅速
多项功能已超越人类
斯坦福大学的年度人工智能指数于2017岁首年月次发布,由一群学术界和工业界的专家协力体例,旨在评估AI领域的技能能力、本钱、伦理等成分,为研究职员、政策制订者和广大"大众年夜众供应指引。
该指数的主编内斯特·马斯雷说:“在以前,我们体例的基准测试可以用很多年,但现在AI很快就冲破了我们的基准线,不得不重新为AI设定衡量标准。”
报告显示,AI在“措辞”“数学”等科目的根本层面已经超过人类,现在唯一有所欠缺的是“视觉空间的知识推理”(即文生视频)、“竞赛级数学解题”。
马斯雷认为,AI的下一步发展该当着重加强更高层面的抽象推理能力,这样能使AI的能力好比今更上一个台阶。
不过对付学习能力超强的AI来说,要理解更难更繁芜的事物也并非难事。纽约大学机器学习研究员大卫·莱恩带领的团队设计了一套“GPQA测试”,被业内公认为是衡量AI综合能力的标杆。
一样平常来说,对付人类博士生而言,参加本专业领域GPQA测试的得分率约为65%,参加其他领域的GPQA测试则均匀只能得到34%的分数。截至2023年底,各家AI模型参加GPQA测试的得分率都在30%至40%之间。
不过大卫·莱恩表示,今年推出的Claude 3大模型的得分率约为60%,险些可以追上博士生在本领域的知识水平了。“这种进步速率让很多人感到震荡,包括我在内,这解释要制订一套能利用几年以上的测试标准是相称困难的”。
AI的理解能力进步神速
“千模大战”背后
AI监管仍无成熟标准
2011年常日被认为是人工智能发展的出发点。在有名编程网站Github上,2011年该网站共有800个和人工智能干系的项目,如今这个数字是180万。
AI发展速率之以是如此之快,很大程度上也是由于广阔的商业化前景让很多科技企业嗅到了商机,2023年业界对AI干系项目的投资规模比2022年赶过八倍。商业的参与加快了科研的进程,有报告统计,在环球51个较为主流的AI大模型中,只有15个是由高校里的学术团队完成,而大部分主流大模型都是由企业创造的。
在激烈的竞争中,演习AI模型的本钱也水涨船高。OpenAI的GPT-4演习据估计耗费了代价7800万美元的打算资源,而谷歌Gemini Ultra的演习本钱则高达1.91亿美元。可以作为比拟的是,2017年发布的Transformer模型演习本钱仅为900美元,2019年发布的RoBERTa Large演习本钱约为16万美元。
此外随着版权轇轕、隐私安全等问题逐渐凸显,目前AI业界严重缺少标准化的安全评估方法。OpenAI、谷歌和Anthropic等行业领先企业分别利用不同的测试来评估他们的模型安全性,使得人们难以横向比拟AI模型的风险和局限性,给监管带来困难。
由于信息不透明,加上技能门槛过高,使得"大众年夜众对付飞速发展的AI担忧多过乐不雅观。皮尤研究中央的数据显示,有52%的美国人表示对AI“忧大于喜”,这一比例高于2022年的38%。
红星新闻 郑直
编辑 何先锋 责编 冯玲玲
(下载红星新闻,报料有奖!
)