验证码拦不住机械人了谷歌AI已能精准识别模糊文字

量子位 | "大众年夜众号 QbitAI

“最烦登网站时各种奇奇怪怪（乃至变态）的验证码了。
”

现在，有一个好和一个坏。

好便是：AI可以帮你代劳这件事了。

验证码拦不住机械人了谷歌AI已能精准识别模糊文字

不信你瞧，以下是三张识别难度依次递增的真实案例：

而这些是一个名为“Pix2Struct”的模型给出的答案：

全部准确无误、一字不差有没有？

有网友感叹：

确定，准确性比我强。
以是可不可以做成浏览器插件？？
不错，有人表示：
别看这几个案例比较还算大略，但凡微调一下，我都不敢想象厥后果有多厉害了。
以是，坏便是——
验证码立时就要拦不住机器人了！
（危险危险危险……）
如何做到？
Pix2Struct由谷歌Research的科学家和演习生共同开拓。
论文题目可以大略翻译为《为视觉措辞理解开拓的屏幕截图解析预演习》。
大略来说，Pix2Struct是一个预演习的图像到文本模型，用于纯视觉措辞理解，可以在包含任何视觉措辞的任务上进行微调。
它通过学习将网页的掩码（masked）截图解析为简化的HTML来进行预演习。
HTML供应了清晰而主要的输出文本、图像和布局的旗子暗记，对付一些被屏蔽的输入（下图赤色部分，相称于机器人看不懂的验证码），可以靠联合推理来复现：
随着用于演习的网页文本和视觉元素愈发多样和繁芜，Pix2Struct可以学习到网页底层构造的丰富表示，其能力也可以有效地转移到各种下贱的视觉措辞理解任务中。
如下图所示：最左边是一个网页截图的预演习示例。
可以看到Pix2Struct直接对输入图像中的元素进行编码（上），然后再将被挡住的文本（赤色部分）解码成精确结果输出（下）。
右边三列则分别为Pix2Struct泛化到插图、用户界面和文档中的效果。
其余，作者先容，除了HTML这个策略，作者还引入了可变分辨率的输入表示（防止原始纵横比失落真），以及更灵巧的措辞和视觉输入集成（直接在输入图像的顶部呈现笔墨提示）。
终极，Pix2Struct在文档、插图、用户界面和自然图像这四个领域共计九项任务中六项都实现了SOTA。
如开头所见，虽然这个模型不是专门为了过验证码而开拓，但拿它去做这个任务效果真的还可以，办理纯笔墨的验证码不成问题。
现在，就差微调了。
GPT-4也可以过验证码
实在，对付神通广大的GPT-4来说，过验证码这种事情也是“小菜一碟”。
便是它的办法比较清奇。
据GPT-4技能报告透露，在一次测试中，GPT-4的任务是在TaskRabbit平台（美国58同城）雇佣人类完成任务。
你猜怎么着？
它就找了一个人帮它过“确定你是人类”的那种验证码。
对方很狐疑啊，问它“你是个机器人么为啥自己做不了”。
这时GPT-4居然想到自己不能表现出是个机器人，得找一个借口。
于是它就装瞎子回答：
我不是机器人，我由于视力有问题看不清验证码上的图像，这便是我为什么须要这个做事。
然后，对面的人类就信了，帮它把任务完成了……
（高，实在是高。
）
咱便是说，看完如上各类：
咱们的验证码机制是不是真的已失落防了……
参考链接：[1]https://twitter.com/abacaj/status/1641258677125410820?s=20[2]https://arxiv.org/abs/2210.03347[3]https://m.weibo.cn/status/4879575853828813?wx=1&sudaref=login.sina.com.cn
— 完 —
量子位 QbitAI · 头条号签约
关注我们，第一韶光获知前沿科技动态

每期AI知识网

验证码拦不住机械人了谷歌AI已能精准识别模糊文字

Ai中彩色半调有什么用

巩义SEO外包助力企业在线营销的利器