#斯坦福抄袭中国大模型##斯坦福团队道歉#,今天下午分别冲上微博热搜第2和第5位,引发热议。

大略说,便是国外一个AI团队主导的开源大模型,被证明套壳抄袭了海内清华系明星创业公司面壁智能的开源模型。
目前,该团队已公开道歉,并撤下大模型。

斯坦福AI团队抄袭中国大模型

5月29日,一个来自美国斯坦福的AI团队在网上揭橥文章《Llama 3-V: Matching GPT4-V with a 100x Smaller Model and 500 Dollars》,并开始广而告之:成功演习出一个SOTA多模态模型Llama3-V,性能比GPT-4V、Gemini Ultra、Claude Opus更强,但模型要小100倍,且演习本钱仅需500美元(约折合公民币3622元)。
后三个大模型,都是环球范围有名的多模态“巨无霸”。

登上热搜斯坦福团队抄袭中国大年夜模型核心证据来自2300多年前

由于团队成员拥有斯坦福(个中两人是斯坦福本科生)、特斯拉、SpaceX、亚马逊等亮眼背景,Llama3-V第一韶光被推到了聚光灯下,登上开拓者社区Hugging Face(抱抱脸)首页,引发浩瀚开拓者关注。

很快,有用户开始在Hugging Face以及社交平台X上提出质疑:Llama3-V是否套壳MiniCPM-Llama3-V 2.5?后者为面壁智能5月20日推出的开源端侧多模态模型。

事情迅速发酵。
经由一些开拓者的比较,两者在模型构造、代码、配置文件等方面完备相同,只是进行了一些重新格式化,并将部分变量重新命名。

面对质疑,斯坦福团队一开始选择“辩白”:只是利用MiniCPM-Llama3-V 2.5的tokenizer(分词器),并且流传宣传在它发布前就已开始这项事情。

6月2日晚,面壁智能团队确认抄袭事实。

面壁智能首席科学家刘知远在知乎上表示:“已经比较确信Llama3-V是对我们MiniCPM-Llama3-V 2.5套壳。

而CEO李大海也在朋友圈发文:“我们对这件事深表遗憾。
一方面感慨这也是一种受到国际团队认可的办法,另一方面呼吁大家共建开放、互助、有信赖的社区环境。

目前,Llama3-V团队的个中两位成员Aksh Garg和Siddharth Sharma,也便是那两位斯坦福本科生,已在社交平台上向面壁智能团队道歉:“我们向作者道歉,并对自己没有努力验证这项事情的原创性感到失落望。
我们对所发生的事情承担全部任务,并已撤下Llama3-V,再次报歉。

同时,Aksh Garg阐明Siddharth Sharma和自己紧张是卖力推广,编写代码的是Mustafa Aljadery,而他目前已经联系不上。

目前已经看不到Mustafa Aljadery的社交平台内容

核心证据:来自战国期间的清华简

在朋友圈发文中,李大海给出确认抄袭的一大情由是:经由测试,面壁智能团队创造Llama3-V不仅能识别“清华简”的战国古笔墨,而且在犯错的地方也和MiniCPM-Llama3-V 2.5一模一样。

公开资料显示,清华简,是清华大学2008年7月收藏的一批战国竹简,属于中国学术史上先秦文献的重大创造。
此后,清华大学成立专门研究团队,先后在已故著名历史学家、考古学家、古笔墨学家李学勤及黄德宽教授的带领下开展简文整理研究,以复原这批幸免于焚书坑儒与秦汉战火的主要历史“拼图”。

这些年里,研究者们在一间不敷20方的小屋里,用一壁42英寸显示屏读简,整理成果以一年一辑的速率出版公布,至今已出版13辑。
诸子思想、历史文化、天文历法、律法术数、医学方技……中国传统文献中的经史子集均有创造,竹简的内容逐渐清晰起来。

据李大海阐明,这次识别清华简的演习数据,采集和标注均由清华NLP实验室和面壁智能团队完成。
“耗时数月,从卷帙浩繁的清华简中一个字一个字扫描下来,并逐一进行数据标注,领悟进模型中”,且数据尚未对外公开。

此外,Llama3-V、MiniCPM-Llama3-V 2.5两个模型在高斯扰动验证(一种用于验证模型相似性的方法)后,在精确和缺点表现方面都高度相似。

巧的是,6月2日,清华大学在官方微信"大众号上转载了新华社《瞭望》新闻周刊刊发的特稿《破译千年竹简 求索文明密码》,回顾这2500位先秦“客人”来到清华的故事。

文中提到,清华简整理研究事情的难点之一,便是“认字”。
“清华简是战国期间楚国人所写,个中有些字没有流传下来,有的字形是首次涌现,即便将一些字辨识出来,其字义的理解也须要下大工夫去研究,由于这些竹简文献只有极少数可与传世文献对照参证。
因此,‘考字释词’耗费巨大精力,把字词探究清楚了,做到文通字顺,才能真正理解文献记载了什么内容,进而判断其代价。

任务编辑:童蔚审核:陈奕 梁应杰