我们熟习的有百度的文心一言、阿里的通义千问、华为的盘古、腾讯的混元,等等。
除此之外,很多的科技企业、学校机构都在制作自己的大模型。
比如,北京智源研究院的悟道 2.0,中科院自动化所的紫东太初、复旦大学的 MOSS、清华大学的 ChatGLM。

这么多大模型的名字听着就让人以为头晕。
如果这些机构全部集中精力做一个模型,实在不是更随意马虎成功?

图源:unsplash.com

这么想自然有一定道理。
但纵不雅观人工智能的发展史。
多种技能、多条路线共同探索,也是让人工智能能够快速发展,能够一次又一次冲破“寒冬”的缘故原由之一。

AI 模型百家争鸣假如集中精力做一个是不是更随意马虎成功

想理解技能多元化对人工智能发展的好处,首先要从符号主义与连接主义提及。

让打算机“变聪明”

在 1956 年“达特茅斯会议”上,人工智能作为一门新兴的学科被确立下来。
一代代科学家们投入到了让打算机“变聪明”的研究道路上。
但“变聪明”这件事太过抽象,详细要如何实现呢?

实在早在达特茅斯会议之前,人们就已经开始探索了。
而在这个过程中,涌现了几条不同的路线,个中“符号主义”和“连接主义”是两种主要且有代表性的路线。

符号主义的想法是人的智能紧张表示在高层的推理方面:“智能的根本是知识,智能的核心是知识的表示与推理”。
而知识和逻辑推理可以转化成数学符号来表示,而它们的推理、运算过程,同样可以用数学公式符号来表达(正因如此,这一学派才被称为“符号主义”)。

符号主义最范例的技能是“专家系统”。
专家系统背后的想法是,把某个领域的知识、逻辑以符号的形式表示出来,整理成知识库和推理机。
根据输入的条件,专家系统能用知识库里面的知识和推理机里既定的逻辑推理方法,一步步推理得出知识库中没有但是又精确结果。

在 1955 年,一款名叫“逻辑理论家”的程序涌现了,这款程序,能够推演《数学事理》里面 52 个定理中的 38 个,并且对一些定理还给出了更简洁的证明方法。

这个程序,乃至被一些人称为“第一个人工智能程序”。
自人工智能涌现很长一段韶光里,符号主义都在人工智能领域霸占主要地位,乃至“人工智能”这个词也是符号学派为主的科学家们起的新名字。

当然,在符号主义大大发展的同时,其他授予打算机“智力”的探索也没有停滞,比如连接主义也在同步发展。

连接主义与人工神经网络

连接主义有点类似于仿生学,是通过从底层到上层的方法来研究并且模拟人类大脑的构造,进而阐明人类的智力行为。

连接主义认为,微不雅观的神经节之间的活动终极呈现出了宏不雅观认知智能。
这个思路也比较符合其他科学领域的从下到上的方法论:比如用底层的物理知识来阐明高层的化学反应事理一样。
它的发展,催生出了本日人工智能领域最主要的技能之一——人工神经网络。

图源:unsplash.com

1943 年,沃伦·麦克洛克和沃尔特·皮茨提出了一种类似于生物神经元的数学模型——MP神经元模型。
这个模型实在便是模拟神经元细胞,对输入的旗子暗记进行处理,并给出特定的信息。

在 1949 年,神经心理学家赫布创造,人类大脑中的神经元之间通报的旗子暗记强度并不是一成不变的而是“可塑的”。
这个理论,后来被人们称为“赫布规则”,在人工神经网络的发展上具有主要地位。

在MP神经元模型和赫布规则的根本上,1958 年,罗森布拉特建立了感知器模型,这个模型被称为最早的“具有学习能力”的人工神经网络。
这个神经网络被美国海军寄予厚望,并持重金打造了硬件机器,希望它能成为新一代的神经打算机。
这个项目是美国海军的主要项目。

但由于当时的算力和技能的限定,人们很快就创造,感知器的功能太有限了,只能办理非常大略的线性分类问题。

麻省理工大学的马文·闵斯基(Marvin Minsky)和西莫·帕波特 (Seymour Papert) (也是少儿编程最早的倡导者)写书公开声称“人工神经网络用途非常有限,乃至连大略的‘异或’问题都无法办理。

在二十世纪六十年代末,人工神经网络的研究陷入了低谷。
而险些就在同一期间,投资者们也开始意识到,之古人们期待的“人工智能大爆发”并未到来。

比如 1958 年时候,就有科学家认为,10 年之内,我们就能让打算机成为国际象棋冠军(实际上这件事在 1997 年才实现比估量晚了将近 30 年)。
在 1970 年,有科学家认为“ 3~8 年之内,就能有一台普通人智力的机器人。
”但这显然是做不到的,直到本日我们都无法造出这样一台机器。

这些“美好的未来”并未实现,使适合局和投资者们也大大减少了研发经费,人工智能迎来了第一个寒冬。

AI 寒冬

但好在人工智能领域有多条技能路线。
在寒冬之下,连接主义的人工神经网络发展困难,符号主义的专家系统却悄然兴起。

在 1972 年,一款叫 MYCIN 的专家系统涌现了,它能够基于病人的症状,推理出得当的治疗方案。

图源:unsplash.com

比如,MYCIN 里面记录了多种内科疾病的症状和病因,同时还有每种疾病适用什么样的药物,哪些药物之间会相互反应。
如果一个人拉肚子了,只要输入对应的症状(比如体温、血常规数据、持续韶光等等),MYCIN 就能推理出他所患的疾病,并且开具得当的药物。

MYCIN 给出的治疗方案“可接管性评分”跟人类专家的相差无几(MYCIN为65%,五位人类专家为 42.5%~62.5% )。

除了 MYCIN,另一款名叫 XCON 的专家系统帮助 DEC 公司每年节省上千万美元的本钱( XCON 可以理解成一种专业的订单处理系统)。
看到专家系统有实打实的经济效益,其他公司也在二十世纪八十年代开始效仿,纷纭建立自己的专家系统以节约本钱。

但随着专家系统的遍及,它的弊端也逐渐显现,比如,专家系统知识库里的知识也不会自动更新,专家系统的掩护本钱很高。

专家系统很快就陷入了僵局,而在此时,连接主义的人工神经网络迎来了自己的“文艺复兴。

在二十世纪七八十年代,陆续有科学家创造了“反向传播算法”的主要性。
在 1982 年,保罗·韦布斯将反向传播算法运用到多层感知器中,这对人工神经网络的发展非常主要,我们本日的人工神经网络,险些都离不开反向传播算法。

由此可以看出,无论在人工智能的寒冬还是复兴期间,符号主义和连接主义的研究都在连续,这给人工智能技能取得飞跃和打破供应了条件。
如果没有这些多元化的研究为根本,人工智能的研究可能会深陷在某一条道路中难以提高。

当然了,除了人工智能技能本身,其他行业的打破,同样也会促进人工智能领域的发展。
比如,在二十世纪九十年代往后,芯片技能飞速发展,打算机的算力得以迅速提升,这对人工智能的发展来说也至关主要。

比如二十世纪九十年代以前,即便有了反向传播算法,想演习层数非常多的(超过 5 层)的深度神经网络会非常困难,因此人工神经网络一度也被支持向量机所取代。
而在 2000 年前后,GPU 的涌现让人工神经网络(紧张是深度神经网络)的演习速率大幅提升,再加上互联网的遍及带来了大量可供AI学习的数据,深度学习技能开始崭露锋芒。

BERT 与 GPT

到了人工智能技能飞速发展的本日,多元化的研究依然能带来意想不到的打破。
比如本日我们所熟习的 ChatGPT,正是多种研究齐头并进的受益者。

在 2017 年,Google Brain 的科学家们揭橥了一篇名为《Attention Is All You Needed》的论文,提出了 Transformer 模型。

大略的说,Transformer 是一种能够让打算机更好地“读懂”人类措辞的模型。
它引入了“把稳力”和“自把稳力”机制,类似于我们看书时候,会把把稳力集中在比较难明得的片段、词句上,并且综合高下文的意思,来理解这些片段、词句。

基于 Transformer 人们连续开拓了多种大模型,在 2018 年 Google 推出了 BERT 模型。
在同一年,Open AI 也推出了 GPT 模型,这两个模型有很多相似之处,但也有一些差异。

大略的说 BERT 更善于于理解文本中的词义,而 GPT 更善于于天生文本。

BERT 能够从一个单词的前后两侧来理解它的含义,有点像考试中的填空题。
比如:“我的宠物是一只会叫的(),它爱啃骨”。
BERT 非常善于从空格的前后判断出,这里的词最可能是“狗”。

而GPT则是单向的,像我们阅读一样从左到右剖析,并且预测出下一个单词。
比如“我的宠物是一只会叫的狗,它爱()”,GPT 能够根据前文信息补全后面的内容。

BERT 涌现之后,由于它在语义理解方面有着非常精良的表现,在自然措辞处理方面大放异彩。
而在 2018 年到 2020 年,GPT 模型并没有像本日这样受人关注,但它的研究没有因此停步。

在 2019 年、2020 年,Open A I相继推出了 GPT 2.0、GPT 3.0。
在 GPT 3.0 的时候,GPT 的参数达到了 1750 亿,演习样本超过 40TB,GPT 3.0 呈现出了比之前的 GPT 模型更强的理解力和天生能力。

在 GPT3.5 又加入了人类标记的演习方法,性能又有了进一步的提升。
而在 Chat GPT 涌现之后,越来越多的人理解到了 GPT 这项技能,这也再次把人工智能推到了人类技能发展的舞台中心。

每一项研究都值得重视

由此可以看出,在全体人工智能发展的过程中,多元化的研究和发展给人工智能技能带来了更多的可能性。
比如在二十世纪六十年代到九十年代,专家系统、人工神经网络、支持向量机同步发展,一项技能陷入困境,会有其他技能兴起。

对付全体人工智能领域是如此,而如果聚焦于大模型这样的领域也是如此。
在自然措辞处理领域,科学家们也并没有由于 BERT 的效果突出,就冷落了 GPT。
这才给了 Chat GPT 在 2023 年让人们人尽皆知的机会。

除了 GPT 和 BERT,在大模型领域还有很多模型在研究、发展中。
这些模型中的某项技能、某些成果可能在未来会给自然措辞处理乃至是这个 AI 行业带来颠覆性的改变。

因此,回到最开头的问题,如果所有的公司、机构集中精力和资源去演习一个模型,确实有机会造出一个超级大模型。
但在这个过程中,可能会失落去一部分宝贵的“技能多样性”。
各个公司的商业化考量,可能也会在客不雅观上匆匆成 AI 的多元化发展。

参考文献

[1]中国大百科全书

https://www.zgbk.com/ecph/words?SiteID=1&ID=216644&SubID=81535

[2]斯坦福哲学百科全书

https://plato.stanford.edu/archives/fall2018/entries/connectionism/#DesNeuNet

[3]MCCULLOCH W S, PITTS W. A logical calculus of the ideas immanent in nervous activity[J].Bulletin of Mathematical Biophysics, 1943, 5: 115-133.

[4]HEBB D O The Organization of Behavior: A Neuropsychological Theory[M].Lawrence Erlbaum Associates, New Jersey, 1949.

[5]ROSENBLATT F. The perceptron: Probabilistic model for information storage and organization in the brain[J].Psychological Review, 1958, 65(6): 386-408.

[6]Simon & Newell 1958, p. 7−8 quoted in Crevier 1993, p. 108.

[7]Yu VL, Fagan LM, Wraith SM, Clancey WJ, Scott AC, Hannigan J, Blum RL, Buchanan BG, Cohen SN. Antimicrobial selection by a computer. A blinded evaluation by infectious diseases experts. JAMA. 1979 Sep 21;242(12):1279-82. PMID: 480542.

[8]Vaswani A, Shazeer N, Parmar N, et al. Attention is all you need[J]. Advances in neural information processing systems, 2017, 30.

策划制作

作者丨秦曾昌 北京航空航天算夜学教授

田达玮 科普作者

审核丨于旸 腾讯安全玄武实验室卖力人