图片来源:Adobe Firefly
人工智能很随意马虎在SAT考试中取得好成绩,击败国际象棋大师,并调试代码,就像它什么都不是一样。但是,在拼写比赛中让一个人工智能与一些中学生对抗,它会比你说的扩散更快地被击倒。
只管我们在人工智能方面看到了所有进步,但它仍旧无法拼写。如果您哀求像 DALL-E 这样的文本到图像天生器为墨西哥餐厅创建菜单,您可能会在一片其他胡言乱语的海洋中创造一些开胃的食品,例如“taao”、“burto”和“enchida”。
虽然 ChatGPT 可能能够为你写论文,但当你提示它想出一个没有字母“A”或“E”的 10 个字母的单词时,它可笑地无能(它见告我,“巴拉克拉法帽”)。与此同时,当一位朋友试图利用Instagram的人工智能天生一个写着“新帖子”的贴纸时,它创建了一个图形,彷佛在说一些我们不许可在家庭网站TechCrunch上重复的内容。
图片来源:Microsoft 设计器 (DALL-E 3)
“图像天生器每每在汽车和人脸等人工制品上表现得更好,而在手指和手写等鄙吝械上则不那么好,”Lesan的联合创始人、DAIR研究所研究员Asmelash Teka Hadgu说。
图像天生器和文本天生器背后的底层技能是不同的,但这两种模型在拼写等细节方面都有类似的困难。图像天生器常日利用扩散模型,从噪声中重修图像。当涉及到文本天生器时,大型措辞模型 (LLM) 可能看起来像是像人脑一样阅读和相应你的提示——但它们实际上是在利用繁芜的数学来将提示的模式与其潜在空间中的模式相匹配,让它通过答案连续模式。
“扩散模型是用于图像天生的最新算法,正在重修给定的输入,”Hagdu见告TechCrunch。“我们可以假设图像上的笔墨是一个非常非常小的部分,因此图像天生器会学习覆盖更多这些像素的模式。
这些算法被勉励去重新创造一些看起来像它在演习数据中看到的东西,但它本身并不知道我们认为天经地义的规则——“hello”不是拼写为“heeelllooo”,而且人类的手常日有五个手指。
“就在去年,所有这些模型的手质都非常糟糕,这与文本的问题完备相同,”阿尔伯塔大学(University of Alberta)的人工智能研究员兼助理教授马修·古兹迪尔(Matthew Guzdial)说。“他们在当地变得非常善于,以是如果你看到一只手上有六七个手指,你可能会说,'哦,哇,这看起来像一根手指。同样,对付天生的文本,你可以说,它看起来像一个'H',看起来像一个'P',但他们真的不善于将这些整体构造在一起。
工程师可以通过利用专门设计的演习模型来增强他们的数据集来改进这些问题,这些模型专门用于教人工智好手该当是什么样子。但专家们估量这些拼写问题不会很快得到办理。
图片来源:Adobe Firefly(Adobe 萤火虫)
“你可以想象做类似的事情——如果我们只是创建一大堆文本,他们可以演习一个模型来考试测验识别什么是好的,什么是坏的,这可能会改进一些事情。但不幸的是,英语真的很繁芜,“Guzdial见告TechCrunch。当你考虑到人工智能必须学习利用多少种不同的措辞时,这个问题变得更加繁芜。
一些模型,如Adobe Firefly,被教导根本不天生文本。如果你输入一些大略的东西,比如“餐厅的菜单”或“带有广告的广告牌”,你会得到一张桌子上的一张白纸,或者高速公路上的一个白色广告牌。但是,如果您在提示中输入了足够的细节,则这些护栏很随意马虎绕过。
“你可以把它想象成他们在玩打地鼠,比如,'好吧,很多人都在抱怨我们的手 - 我们将不才一个模型中添加一个新东西,只是办理手的问题,'等等,”古兹迪尔说。“但笔墨要难得多。正由于如此,纵然是 ChatGPT 也无法真正拼写。
在 Reddit、YouTube 和 X 上,一些人上传了视频,展示了 ChatGPT 在 ASCII 艺术中的拼写失落败,ASCII 艺术是一种利用文本字符创建图像的早期互联网艺术形式。在最近的一段名为“提示工程英雄之旅”的视频中,有人挖空心思地试图勾引 ChatGPT 创建写着“本田”的 ASCII 艺术。他们终极成功了,但并非没有奥德赛式的磨练和磨难。
“我的一个假设是,他们在培训中没有很多ASCII艺术,”Hagdu说。“这是最大略的阐明。”
但从实质上讲,LLM 只是不明白字母是什么,纵然他们可以在几秒钟内写出十四行诗。
“LLM 基于这种 transformer 架构,它实际上并不是在读取文本。当你输入提示时,它会被翻译成编码,“Guzdial说。“当它看到'THE'这个词时,它对'THE'的含义进行了编码,但它不知道'T'、'H'、'E'。
这便是为什么当你哀求 ChatGPT 天生一个没有“O”或“S”的八个字母的单词列表时,大约有一半的韶光是禁绝确的。它实际上并不知道“O”或“S”是什么(只管它可能会引用这封信的维基百科历史)。
只管这些糟糕的餐厅菜单的DALL-E图像很有趣,但AI的缺陷在识别缺点信息时很有用。当我们试图查看可疑图像是真实的还是人工智能天生的时,我们可以通过查看路牌、带有笔墨的 T 恤、书页或任何可能背叛图像合成来源的随机字母来学到很多东西。在这些模型更好地制作手之前,第六根(或第七根或第八根)手指也可能是赠品。
但是,Guzdial说,如果我们看得足够近,人工智能出错的不仅仅是手指和拼写。
“这些模型一贯在制造这些小的局部问题 - 只是我们特殊长于识别个中的一些,”他说。
图片来源:Adobe Firefly(Adobe 萤火虫)
例如,对付普通人来说,人工智能天生的音乐商店图像很随意马虎令人信服。但是对音乐有一点理解的人可能会看到相同的图像,并把稳到一些吉他有七根弦,或者钢琴上的黑白键间隔禁绝确。
只管这些人工智能模型正在以惊人的速率改进,但这些工具仍旧一定会碰着这样的问题,这限定了技能的能力。
“这是详细的进展,毫无疑问,”哈格杜说。“但这项技能得到的那种炒作切实其实是猖獗的。