谷歌花6000万美金买来的毒蘑菇让AI产生了幻觉

美国财政部长耶伦访问中国期间，曾经点了几盘名为“见手青”的毒蘑菇，挑事的美国媒体认为毒蘑菇让耶伦在访华期间产生了幻觉，出卖了美国的利益。
回到美国后，耶伦否认了这种说法，认为烹饪到位的毒蘑菇“非常美味”，自己身体没有任何不适。
而谷歌花了6000万美元收购的AI演习语料，却由于“烹饪”方法不到位，让食用语料的谷歌AI中毒，真的产生了幻觉。

最近，谷歌创造旗下的AI Overview状况频出，不仅提出了“披萨配胶水”的阴郁收拾，还“建议”用户吃石头补充矿物质和维生素、喝尿治疗肾结石、被响尾蛇咬了用冰块冷敷伤口、感到烦闷可以跳金门大桥等，乃至提出“毒药对人体很好”的离谱结论。

收到大量的用户反馈后，谷歌禁用了某些搜索的AI Overview功能，并对其进行修复和优化。

AI Overview大翻车

谷歌花6000万美金买来的毒蘑菇让AI产生了幻觉

和此前Bard一样，AI Overview也是对手们兵临城下时，谷歌仓促应战的产物。

5月中旬，因OpenAI前日发布的王炸级产品GPT-4o拔高了不雅观众的阈值，两小时的谷歌I/O开拓者大会纵然带来12款新品及升级，还是让不雅观众感到枯燥乏味。

AI Overview正是这次发布会推出的搜索升级功能，该功能将AI结果加入到搜索结果呈现。
正式发布前，AI Overview已经由一年韶光的测试，期间处理了超过10亿次查询。
只管谷歌为将AI集成进搜索做了精心设计，但体验过后，AI Overview差异性有限，产品性能更是一言难尽。

作为危急公关的一部分，谷歌官方不得不了局回应称，离谱的回答仅在十分罕见的提问中涌现的，不代表大多数人的经历。

事实上，诸如“我每天该当吃多少石头？”之类的问题的确属于勾引性提问。
然而谷歌在面对这类陷阱式的提问时，不仅没能甄别个中的逻辑漏洞，反而有理有据地给出了有害的答案——“加州大学伯克利分校的地质学家表示建议每天至少吃一块小石头，由于石头中含有的矿物质和维生素有益消化系统康健。
”倘或一些不明原形的网友选择信赖威信，开始每天食用石头，后果将不堪设想。

对付这种不苟言笑地胡说八道，谷歌CEO劈柴哥（Sundar Pichai）回答称，上述回答产生的根本缘故原由是天生式AI的固有缺陷——幻觉问题，而这个问题目前尚无办理方案。

实质上，幻觉是由于演习数据有缺陷、算法缺点或对高下文的误解造成的。

资深人工智能专家郭涛向财经光年表示，幻觉问题虽无法根治，但可以通过技能降落其涌现的频率：

一是增加数据多样性，通过网络更多样化的演习数据，提高AI模型的泛化能力，减少对特天命据集的依赖；

二是改进模型架构，利用更繁芜的神经网络构造、增加模型的深度或宽度等，提高模型的性能和泛化能力；

三是引入对抗性演习，向模型输入故意制造的缺点样本，提高模型的鲁棒性，使其能更好地处理非常输入。

成也贴吧败也贴吧

HITCon安全会议上的干系研究成果显示，只需“污染”不到0.7%的数据集，就能绕开防御机制，大幅降落大模型输出内容的准确性。
昔时夜模型被投喂的数据集含有误导性信息时，其给出的结果一定同样失落真。
这正是谷歌在这次翻车中的失落职之处，不加筛选地给大模型投喂了“有毒”的语料。

例如“如何不让芝士从披萨上面滑落”的问题，AI Overview的回答是，“给酱汁中加入八分之一的无毒胶水，可以使其更粘稠，有助于芝士粘附”。
这一答案随后被扒出来自Reddit 一则11年前的恶搞帖子；而在建议烦闷的网友“跳下金门大桥”的回答中则明晃晃地标注着“一位Reddit 用户建议”。

今年2月，谷歌与Reddit达成互助，将其平台上的内容用于演习谷歌的AI模型。
Reddit上线于2005年，是美国流量排名前十的社区论坛，又称为“美版贴吧”。
公司于今年3月正式上市，2023年亏损近1亿美元，仍处于商业变现的早期阶段。

大模型热潮让Reddit实实在在体验了一把泼天富贵：一方面，Reddit得以将UGC内容授权用于模型演习，仅和谷歌的授权协议每年就代价6000万美元，最近还敲定了和OpenAI的互助；另一方面，谷歌AI搜索的算法更新让Reddit网站流量激增126%，今年一季度收入同比增长了48%。

作为百度贴吧中一个子版块，弱智吧最近也在海内的大模型演习中发挥了主要浸染。
一项来自中科院、滑铁卢大学等高校和机构的研究显示，利用弱智吧数据演习的大模型，在问答、头脑风暴、分类、天生、总结、提取等8项测试中取得最高分。
跑分超过百科、知乎、豆瓣、小红书等平台，乃至是研究团队精心挑选的数据集，直接登顶大模型最好的中文语料库。

不得不说，大模型为贴吧这一PC时期的产物打开了变现的新思路。
不过，谷歌每年花费6000万美元买来的语料库，终极演习出的成果竟如此上不得台面。

深度科技研究院院长张孝荣认为，弱智吧数据质量相对较高是个特例。
在利用贴吧内容进行大模型演习时，有以下把稳点：

须要对原始语料进行洗濯和处理，以去除水贴、广告、谩骂等不良内容；

须要对语料进行标注和分类，以便更好地演习模型；

此外，还须要把稳模型的泛化性和可阐明性，通过一定的策略扩充演习数据集，以确保模型在不同场景下的表现和适用性。

AI搜索是好买卖吗？

当下，AI搜索是海内外AI创业团队的主要方向之一。

去年2月，微软上线了GPT-4加持的New bing。
截至今年1月，其市占率已从2023年的2.97%增长至3.42%。
微软还在New bing的一些回答中插入广告来实现创收，今年一季度，微软的搜索与广告营收增长12%，超出预期，AI贡献明显。

Similarweb数据显示，主打AI搜索的创业公司Perplexity今年前三月的流量持续增长，分别为4560万、4954万和6149万，最新估值已超过25亿美元。

眼看市场份额不断被侵蚀，谷歌又慌了。

今年3月，谷歌任命进入公司20年的老将Liz Reid担当天生式搜索业务的卖力人，还将前搜索质量和排名主管Pandu Nayak任命为谷歌搜索首席科学家。
这次重大的高管洗牌彰显了谷歌对AI搜索志在必得的信心。

不过，随着谷歌天生式AI搜索功能开始推出，一系列负面影响随之产生：AI天生的垃圾邮件增加、原创内容的可见度低落，就连公司的现金牛——搜索广告的营收都遭到蚕食。
只因AI overview会让更多用户勾留在谷歌主页，而非利润丰硕的广告页面，从而影响广告的曝光和点击率。

郭涛表示，AI Overview对谷歌的搜索广告业务是把双刃剑：

一方面，它可以帮助谷歌更好地理解用户需求和行为，从而供应更加精准的搜索结果和广告推举；

另一方面，AI Overview的误导性内容也可能会影响用户对谷歌搜索的信赖度和满意度，进而影响广告收入。

一些专家认为，未来，AI Overview可能会发展出更加智能和个性化的产品形态，例如通过自然措辞交互、语音识别、图像识别等技能来供应更加智能化的搜索结果和推举。

每期AI知识网

谷歌花6000万美金买来的毒蘑菇让AI产生了幻觉

优装修设计网站,打造个性化家居，引领装修新潮流

简笔画︱古风诗词荷花