然而近日,麻省理工的科学家基于 OpenAI Codex 预演习模型在高数上通过 few-shot learning 的精确率达到了 81%!
最主要的是,与OpenAI凭借“编程技巧”取得数学高分的方法不同,谷歌AI这一次,走的可是“像人一样思考”的路子。
当之无愧的“AI做题家”
乍一听,大多数网友的第一反应是,怎么连AI做高数题都考不了满分。确实在此前,科学家一贯都在考试测验让AI机器人寻衅数学考试,但频年不及格,乃至低到只有20多分。因此,人们普遍认为神经网络无法办理高档数学问题。但这一次,麻省理工的科研职员成功了。
课程范围从低级微积分到微分方程、概率论、线性代数都有,题目形式除了打算、乃至还有画图。这一次,谷歌AI“满血版”,也都拿到了做题家中的最高分,直接将分数拉高了20分旁边,节制了更好的解题技巧。
研究团队的办理思路是先在文本上做预演习,再用代码进行微调,把数学问题转换成等价的问题,通过让 AI 自动天生补充提干的高下文,将题目自动天生适宜模型运行的文本后,再天生对应的代码并运行,终极办理数学问题。研究团队下一步打算把这项技能扩展到更多课程,并考虑实际运用到传授教化中。
密涅瓦通过天生办理方案来办理问题,包括数值打算、符号操作,而不须要依赖打算器等外部工具。密涅瓦可以将自然措辞和数学符号进行结合来解析和回答数学问题。密涅瓦不仅可以办理代数问题,还能办理物理、数论、几何、生物、化学、天文学等浩瀚问题。
为了更好地确认模型可以改进的领域,研究者们剖析了模型出错的问题样本,创造大多数缺点很随意马虎阐明。结果表明,大约一半是打算缺点,另一半是推理偏差,缘故原由是办理步骤没有遵照逻辑思考链。
同时,Minerva 也有可能得出精确的终极答案,但推理依然缺点。剖析结果显示,这种概率相对较低,Minerva 62B 在 MATH 数据集上的均匀低于 8%。
是高数太难不是AI太弱
事实上近年来,科学家们一贯考试测验让AI机器人通过数学考试寻衅,由于在此之前频年“失落利”,从未及格,乃至低至20余分,使人们一度认为AI无法寻衅高数。近日,科学家们研制的AI精确率达到了81%,此前9-12岁的小学数学上仅拿到了20多分,经由重新演习后才勉强达到55分。
以是分数低真不是AI的问题,是高数太难了!
要知道AI不仅在技能圈有着不错的发展,在不同的领域也大展拳脚,前有让 AI 在 40 秒写 40 篇高考作文,用 AI 修复很多宝贵的照片、画面。不仅有学生们盼着有一天能用 AI 做作业,还有老师们也期望用 AI 出卷子。
那么间隔AI考满分的那天还有多远呢?