离大谱了,弱智吧登上正经AI论文,还成了最好的中文演习数据??
详细来说,利用弱智吧数据演习的大模型,跑分超过百科、知乎、豆瓣、小红书等知识分享平台,乃至还有一些研究团队精心挑选的数据集。
弱智吧在问答、头脑风暴、分类、天生、总结、提取等8项测试中取得最高分。
没错,论文中的Ruozhiba便是指百度贴吧弱智吧,一个充满荒谬、离奇、不合常理发言的中文社区,画风常日是这样的:
最离谱的是,弱智吧AI代码能力也超过了利用专业技能问答社区思否数据演习的AI,这下吧友自己都闹不明白了。
其他平台围不雅观网友也纷纭蚌埠住。
这项研究来自中科院深圳前辈技能研究院、中科院自动化研究所,滑铁卢大学等浩瀚高校、研究机构联合团队。
作者之一也现身评论区,透露利用弱智吧数据演习AI属于灵机一动,以前只用来测试。
弱智发言成指令微调神器
这项研究起初为办理中文大模型演习中的诸多问题:
中文数据集很多是从英文翻译过来的,没有很好地契合中文的措辞习气和文化背景
不少数据集是用AI天生的,质量难以担保,随意马虎涌现事实性缺点
为理解决这些痛点,团队从中文互联网的各种知识源头直吸网络数据,比如知乎、豆瓣、百科、小红书等,经由一系列严格的洗濯和人工审核,打造成高质量、多样化的中文指令微调数据集COIG-CQIA。
除了探索不同数据源的浸染,团队还专门从中抽取出一个精华子集CQIA-Subset。
在浩瀚数据来源中,弱智吧成了最特殊的一个。
由500个点赞最高的帖子标题+人工或GPT-4的回答组成指令微调数据集, 经由人工审核后,终极留下了240组指令-回答数据对。
分别用各种数据集演习零一万物Yi系列开源大模型,在BELLE-Eval测试集上利用GPT-4评分得到结果。
在规模较小的Yi-6B模型上,纯弱智吧版本总分排名第三,还不算太突出。
看来小模型还没能领悟弱智的精髓。
到了Yi-34B,弱智吧版本表现就一骑绝尘了。
只有在改写和数学任务上没能取得最高分,但成绩也比较靠前。
其余,在安全评估上弱智吧版本也能排上第二。
对付这类征象,研究职员在剖析中也给出大略预测:
可能是弱智吧问题增强了AI的逻辑推理能力,从而使指令遵照任务受益。
通过对各种中文互联网数据源的探索,这项研究为构建中文指令数据集供应了很多有益的启迪。
另一个缘故原由是弱智吧数据文实质量很高,用词准确且简洁。
千言万语汇成一句话:把弱智吧只当大略的段子合集真的是严重低估了它的代价!
雀食,要不此前弱智吧问题也常常被大伙儿用来测试大模型呢。
事实上从ChatGPT出身之初,弱智吧就深度参与了大模型的发展,可以算是这一波AI浪潮的主要见证者了。
一开始只是网友拿来拷打AI,搞搞节目效果。
后来大家创造,弱智吧问题中充满陷阱,刚好可以用来分辨AI能力高低。
还记得23年初那会儿,各家大模型初版还不太能很好应对这类问题,如2023年3月的文心一言:
后续版本也渐入佳境了,如2023年8月的文心一言:
直到本日,弱智吧问题都是每个新发布大模型都必须要过的一关,被戏称为弱智吧Benchmark。
秘塔写作猫
Inspo
再后来,AI公司们自己也开始重视起来,如百度官方就搞过联动直播。
当初网友为了调戏大模型专门搜集的弱智吧问题测试集,没想到有一天也能摇身一变,成了演习集。
思路确实是被打开了~
论文地址: https://arxiv.org/abs/2403.18058 本文转载自微信"大众号【量子位】 撰文:梦晨 西风 图片:量子位 版式设计:嘉颖 伸出小手