给AI加上眼睛会出现啥效果166页GPT4v视觉申报解读

专注AI提示词~

很想让你和AI好好相处

—这是我的第1598篇原创—

去年9月尾，微软发布了 166 页的 GPT-4V（视觉）的研究报告。

给AI加上眼睛会出现啥效果166页GPT4v视觉申报解读

虽然已经有很多解读内容，不过别的小朋友都有的，我的小朋友们也要有（别忘了关注我）。

上次说到邪招图生文做内容，这次干脆就趁着机会跟你聊聊AI多模态识别，现在的可能性，希望对你有启示（现在就关注！
）。

完全论文链接我放在文章末了面，如果AI时期你还说英文看不懂，那就要打手板了啊！

末了一句唠叨：有韶光的话，还是看看原文，就当消遣了～我的解读是条记体，可能会略掉一些对你有帮助的，我只管即便完全，测试解读一共35条，会让你对AI图片识别的理解甩开其他人几条街（关注。
）。

序言：

这次谈论的是大型多模态模型（LMMs），用给大措辞模型（LLMs）添加多感官的办法，来实现更强的通用性。
GPT-4v，v便是Vision，视觉的意思。

为啥从视觉开始呢？由于视觉是人类的主导感官，因此LLMs从扩展视觉开始

论文紧张研究了开放天下图像理解、视觉描述、多模态知识、场景文本、视觉指针（这个特殊故意思，请往下看）、韶光推理等场景，效果让人印象深刻；

须要把稳的是，研究以定性示例为主，展示功能为主，不做定量测试——这意味着结果都是理论上能出来，但实际可能无法复现。
害，还是那句话，你要亲手用起来才行～

测试内容：

1、识别你给他的图片的意图。
AI可以理解图片上账单和菜单中菜名和金额对应关系；

2、描述图片内容。
图生文便是这么来的；

3、提取图片中的笔墨内容，并按规定格式存储。
做知识库的时候，资料是纸质资料咋办？用这个直接给你存成json；

4、图片推理。
智力测验里，给你前几个图形，让你推理接下来的图形该当是什么样。
实际中用cot效果很不错，不用的话够呛（比拟见下面的配图）；

5、工具计数。
“数苹果数人”——不识数的老毛病依旧，但多给他一点韶光，比如0-shot+cot+角色，还是能做对的（幻觉率还须要测试）；

6、【主要】视觉指向和视觉参考提示功能特殊强大。
图上圈个圈画个箭头啥的，让他说圈里是什么，箭头指的是什么，特殊牛特殊准；

7、视觉参考提示+文本提示很强。
在图片推理题中，你不用一行一行一句一句地描述推理过程，圈一个圈，见告他圈住的是提示，就可以起到很好的样本效果；

8、读取图标（比如汽车时速表）能力很弱。
即便有cot，也很弱，但增加样本数量，可以一定程度提高精确率。
这一条真的很难评；

9、各种识别。
名人识别、地标识别都很准。
食品识别乃至能说出烹饪方法；医学图像识别，传统艺能了，依然强大早就超过了人类，就不多说了——无监督学习；标志识别，能在困难场景中识别，彷佛没啥好说的；场景识别，很强，L4级自动驾驶时期的限定只有伦理了

10、【主要】反事实。
缺点提示词，也能识别出来，为啥说这个主要呢？能识别不代表能用，但！
是！
反事实推理，是一个智能有自由意志的主要标志之一，当古人工智能领域的泰斗，朱迪亚·珀尔给过这么一个定义：自由意志=意识到自己的动机+考虑不一样的行动。
听过我培训的同学该当知道这一条为什么标主要了。

11、空间关系判断和工具定位。
谁前谁后，谁是主角，酒吧里谁是顾客谁是事情职员，能认出来么？一点问题都没有我的朋友；

12、密集标注。
在图片上找出想要的元素，圈出来并备注的功能，没问题。
准确度须要多研究，不过和场景识别结合，就很牛了；

13、理解梗图meme。
嗯，你的段子和梗再也不会垮了（你看这梗图，做测试的人切实其实不要太可爱好吧）；

14、【主要】多模态知识。
识别图片元素并做出推理，比如图片上穿白衣服的人正在做什么；这家酒吧里酒保的标准服装是什么（先判断哪个是酒保，再判断什么是标准服装）效果很棒；

15、场景文本、表格、图标等识别、视觉数据推理、图表理解和推理。
有字的地方都认识，关键在于理解和缺点冗余，不是ocr或者是强化版的ocr（谢天谢地）；

16、不同场景下不同措辞笔墨识别。
乃至是多文化理解的能力，一个字，棒；

17、视觉写代码。
不多说了，肯定没问题；

18、天生指向输出。
也便是不用你给他在图片上画圈，而是让他自己在图片上根据样本和提示词画圈或取坐标，效果怎么样呢？勉勉强强，“很难创建一个紧密贴合的边界框”，但依然很厉害了！
！
再来一个但是，但是很厉害不代表能用，偏娱乐吧；

19、【特殊主要】多图像序列。
多个有关的图片，比如漫画和视频的每帧画面，他可以理解画面中的活动，可以看出他确实是理解了视频或漫画中正在发生的事，而不仅仅是识别工具和场景；其余，你给他韶光顺序打乱的图片，比如开关门，制作美食的过程等内容，他也能识别出来，解释他具备了理解韶光的能力，好吧，最少是部分具备了

20、【主要】韶光预期、韶光定位和推理。
能够按照韶光顺序，判断下一个画面是什么——你给他几张图，让他连续讲故事，可以讲下去——而且，特殊牛的是，他知道他自己在说些什么，包括了社会关系（我在图片上向老王挥拳，他知道下一秒我会打老王的脸，而且我这个行为是在陵暴老王，是这么个意思）

21、抽象视觉刺激。
点阵图啥的也能看懂，解释是真的理解了图片

22、【主要】创造关联部件和工具。
像拼图一样把画面组合起来行程一张故意义的画面。
诚笃说，这是人脑的臭毛病，总想把干系的事联系起来或者为他们找个情由，gpt做得很出色；

23、智力测试题。
不多说了，实在是其他内容的综合表现；

24、【主要】读取情绪。
理解视觉内容对情绪的影响：知道什么是情绪，也知道什么样的画面会引起什么样的情绪，你就想吧，一个懂你、可以和你一起看胆怯片还会安慰你或者跟你一起瑟瑟颤动的家庭陪伴机器人，不比一个男朋友强？（不是；

25、美学判断。
这块测试我以为有点多余… ；

26、图片找不同。
不多说了；

27、毛病检测、安全检讨、杂货结账、医疗判断。
企业级运用，找出次品以及为啥是次品，找出谁没戴安全帽、一筐菜一起结账（这个场景确定要用ai吗）、看x光片+开药等，这些是硬而详细的运用，相信会在不知不觉中改变咱们的生活；

28、汽车保险+保险报告。
根据现场照片，写保险报告，啧啧…；

29、照片组织。
为你的相册识别出不同的家庭成员并给他们写名字——彷佛没啥可多说的，“找猫咪”升级版，但是很厉害；

30、密集切割。
升级版的智能抠图吧，可以这么理解；

31、天生图像评估。
大略说便是理解“图像里发生了什么事”，提及来大略，做起来真的很牛很难；

32、基于图像的繁芜智能。
你买了一个神器的咖啡机，你不会用，没紧要，解释书交给gpt，他学会之后，你只要见告他，给我做一个咖啡，接下来他替你操作咖啡机做咖啡，嗯，未来已来不开玩笑；

33、导航。
不多说，L4级自动驾驶，有生之年能用了——把稳这里的导航不是现在舆图的导航，你可以跟他说，把车给我开到最高的那栋大楼，也可以搞定；

34、GUI（图形用户界面）交互和导航。
听着很繁芜，实在便是——他会玩手机了，你让他去网上找一份菜谱，没问题，手机给他就行。
除了搜索网页，还会网上购物、对你手机的做出反应和处理、刷视频，没想到吧？

35、多模态链、自我反思、自我同等性。
这几个提示工程的技巧，不多说了，依然好用。

好～恭喜你看完，怎么样？有没有启示？原论文链接我放在这里（我倒要看看几个人去看）：

https://arxiv.org/pdf/2309.17421.pdf

回忆一下，这些能力实在作为人类的你都具备，这么想，自己还是很厉害的对不对？此刻我发起，你放下手里的活，给自己鼓鼓掌～你实在很棒！

如果你还能创造其他值得测试的维度，请一定要写成论文，大模型面古人人平等。

用好AI的第一步还是——去用AI，本日这么多好玩的测试，赶紧都试试吧～

末了，我为什么总说要搞清楚边界呢？

由于只有这样，才能知道什么事可以做，什么事可能弗成，才能用在实际场景中。

一个东西我们知道它不靠谱，那它也是靠谱的；

一个东西我们不知道它靠谱，那它还是不靠谱的。

好～这次这个小番外篇就到这里，希望对你有帮助！
别忘了关注我追更更多AI干系内容。

AI的好朋友，也是你的好朋友，来个关注"大众年夜众号【嘿哈主教】

每期AI知识网

给AI加上眼睛会出现啥效果166页GPT4v视觉申报解读

报名电子照助手照片做事退款须知及操作流程

线描花卉教你若何用中性笔画线条这几点一定要留心