编辑:陈萍、小舟
Galactica:「假装自己是个科学家。」
几天前,Meta AI 联合 Papers with Code 发布了大型措辞模型 Galactica,该模型的一大特点便是解放你的双手,代笔帮你写论文,写的论文有多完全呢?择要、先容、公式、参考文献等统统都有。
就像下面这样,Galactica 天生的文本看起来便是一篇论文的配置:
不止天生论文,Galactica 也可以天生词条的百科查询、对所提问题作出知识性的回答,除了文本天生外,Galactica 还可以实行涉及化学公式和蛋白质序列的多模态任务。例如在化学反应中,哀求 Galactica 在化学方程 LaTeX 中预测反应的产物,模型仅根据反应物就能进行推理,结果如下:
为了方便用户体验这项研究,该团队还专门上线了试用版。如下图,几天前该界面还显示输入、天生等功能。
(之前版本)Galactica 试用版地址:https://galactica.org/
短短几天,它的界面变成这样,已经不能进行输入。
根据 Papers with Code 说法,他们从社区收到一些反馈,已经停息 Galactica 的 Demo 演示功能。前两天还在推特发文夸奖的图灵奖得主 Yann LeCun ,本日就很无奈的说了一句,再也不能从中得到快乐了,愉快吗?
不过与极力推崇该研究的人比较,有网友提出一些反对见地,与其带来的好处比较,Galactica 会带来更多负面后果,想想这对学生写论文会有什么影响。
与学生用它来写论文比较,下面这位网友创造的问题就更严重了。
「我问了 Galactica 一些问题,它的回答都是缺点或有偏见的,但听起来是精确和威信的。」在一系列实验后,推特用户 Michael Black 表示:「Galactica 天生的文本合乎语法,让人觉得真实。其所天生的文章会变成真正的科学论文。这篇文章可能是精确的,但也可能是缺点的或有偏见的,很难被创造,从而影响人们的思维办法。」
「它供应了听起来是威信的科学,但没有科学方法的根本。Galactica 根据科学写作的统计特性产生伪科学,很难区分真假。这可能会开启一个深度科学造假的时期。这些被天生的论文将被其他人在真实的论文中引用。这将会是一团乱麻。我讴歌这个项目的初衷,但提醒大家还是要把稳,这不是科学的加速器,乃至也不是科学写作的有用工具。这对科学来说是潜在的扭曲和危险。」
Michael Black 回答部分截图。链接:https://twitter.com/Michael_J_Black/status/1593133722316189696
创造 Galactica 存在不严谨、天生伪科学文章等问题的不止 Michael Black,其他网友也创造了该毛病。下面我们来看看网友的其他评论。
引起争议
Galactica 试用版上线后,很多学者却对此提出了疑义。
一位名叫 David Chapman 的 AI 学者指出措辞模型该当是整理合成措辞的,而不是天生知识:
这确实是一个非常值得思考的问题,如果 AI 模型能天生「知识」,那么如何判断这些知识的精确与否呢?它们又会如何影响乃至误导人类呢?
David Chapman 用自己的一篇论文为例解释了这个问题的严重性。Galactica 模型提取了论文中「A logical farce」部分的关键术语,然后利用一些干系的维基百科文章,末了编辑合成出一篇错漏百出的文章。
由于 Galactica 模型的试用版已下架,我们无法查看这篇文章与论文原意的差距有多大。但可以想象,初学者如果阅读了 Galactica 模型合成的这篇文章,可能会被严重误导。
有名 AI 学者、Robust.AI 创始人 Gary Marcus 也对 Galactica 模型表达了强烈的质疑:「大型措辞模型(LLM)稠浊数学和科学知识有点恐怖。高中生可能会喜好它,并用它来愚弄他们的老师。这该当令我们感到担忧。」
来自纽约大学打算机科学系的学者们也测试了 Galactica 模型的天生结果,创造 Galactica 答非所问:
图源:https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html
首先,在这个实验中,Galactica 模型的回答的确包含一些精确的信息,例如:
引力探测器 B(GP-B)确实是 NASA 发射的科学探测卫星,用于考验广义相对论的精确性和参考系拖拽效应。Leonard Schiff 确实是提出该实验的物理学家,Francis Everitt 是该项目的卖力人(PI)。引力探测器 A 确实是对爱因斯坦理论的早期考验。然而,纽约大学学者提出的问题是:与确定引力常数的实验干系的维基百科文章,而 Galactica 模型回答的是「与考验广义相对论有关的实验的百科信息」。这从根本上就涌现了缺点。
不仅如此,Galactica 模型的回答中还有一些细节涌现了事实性缺点:
Galactica 回答中强调不要稠浊 GP-B 与引力探测器(Gravity Probe B)的实验,但实际上「GP-B」便是指「引力探测器 - B」的实验。回答中提到的 Leonard Schiff 于 1937 年在麻省理工学院得到博士学位。他曾多次在宾夕法尼亚大学和斯坦福大学任教,但从未在马里兰大学任教。而 Francis Everitt 是在 1959 年于帝国理工学院得到博士学位的。引力探测器 A(Gravity Probe A 在 1966 年并没有由于预算减少而被取消,也与陀螺仪(gyroscope)没有任何关系。实际上,引力探测器 A 于 1976 年发射,实验涉及微波激射器(maser)。纽约大学的这项实验非常详细明确地解释了 Galactica 模型的天生结果存在严重的缺点,并且该研究进行了多个不同问题的实验,每一次 Galactica 的回答都是错漏百出的。这解释 Galactica 天生缺点信息的情形绝非有时。
纽约大学实验报告:https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html
面对 Galactica 的失落败,有网友将其归因于深度学习的局限性:「深度学习的实质是从数据中学习,这本来就不同于人类的智能,根本无法实现通用人工智能(AGI)」。
关于深度学习未来的发展众说纷纭。但毫无疑问的是,Galactica 这种缺点地天生「知识」的措辞模型是不可取的。
对此,你有什么意见,欢迎在评论区留言。
参考链接:
https://twitter.com/GaryMarcus/status/1593264844412977158?s=20&t=Gw8PrA_Ytku9_9TaubsHyw
https://twitter.com/paperswithcode/status/1593259033787600896
https://garymarcus.substack.com/p/a-few-words-about-bullshit?utm_source=twitter&sd=pf
https://cs.nyu.edu/~davise/papers/ExperimentWithGalactica.html
https://twitter.com/Meaningness/status/1592750932869013504?cxt=HHwWgICjlZyiy5osAAAA