1月28日上午,由中国工程院和清华大学联合主理的“长城工程科技会议”第四次会议工业大数据分会在清华大学信息科技大楼召开。中国工程院院士李伯虎、工业和信息化部信息化和软件做事业司副司长李冠宇、中国工程院制造业研究室主任屈贤明、中国信息通信研究院总工程师余晓辉、百度集团副总裁王海峰、富士康科技集团幕僚长陈辉龍、富士康科技集团资讯长胡智深等出席。会议由清华大学软件学院院长、数据科学研究院副院长、大数据系统软件国家工程实验室实行主任、工业大数据系统与运用北京市重点实验室主任王建民教授主持,主题为“大数据与工业互联网”。
数据派作为唯一互助媒体参会,并为大家整理了百度集团副总裁、百度AI技能平台体系总卖力人兼百度研究院院长王海峰师长西席主题演讲《大数据与人工智能》的精华内容:
后台回答关键词“0911”,下载王海峰演讲PPT。
人工智能是第四次工业革命
从18世纪开始,随着技能的发展,以及需求的牵引,人类逐渐开始进入技能革命或工业革命。历史上的工业革命有三次,可以大致归纳为第一次机器化革命、第二次电气化革命和第三次的信息化革命,而第四次工业革命则因此智能化——人工智能(Artificial Intelligence,英文缩写为AI)——为标志的。
回顾一下人工智能的发展历史,正式的出发点是1956年的达特茅斯会议,出身了AI这个观点。而在1956年之前,已经涌现了至今仍旧很热门的一些人工智能方向,例如机器翻译、自然措辞处理、打算机下棋、神经网络等等。而从AI出身以来的60多年,人工智能的发展起起落落,从下面的图中可见一斑。
过去10年,随着深度学习的涌现,更主要的是“数据井喷”,以及数据支撑的算法和打算能力的打破,尤其是在语音、图像等领域,人工智能再次迎来了发展的新机遇。而这一次的复兴即将带动全体社会产生深层次的变革,这是我们已经可预见的未来。这次人工智能的爆发,在很大程度上是从互联网开始的,而互联网带来了很多需求,包括搜索、社交、购物等等。这些需求越来越多的线上化,同时带动了数据的线上化。
数据真正线上化往后,也带动了更多的算法去处理这些数据,而需求和数据的在线化也带动了全体生态的生动,进而使越来越多的数据开放出来,依托更强大的打算平台,结合更好的AI算法,实现打算能力的打破。比如现在大家常用的GPU,利用深度学习、深度神经网络算法,就有非常强大的上风。大数据、算法和大打算这三者俨然成为了人工智能复兴的必要条件。
百度人工智能已经扬帆起航
百度从做搜索开始,人工智能的研究和发展已经有十几年了,如自然措辞处理根本的分词、短语剖析等。而全面布局人工智能大概是在七、八年以前,逐步从NLP、语音、机器学习、图像等方面开始,时至本日,百度已经形成了一个较完全的人工智能技能布局,包括根本层、感知层、认知层、平台层、生态层和运用层,共计六层。
数据、算法和打算平台是根本。感知层对应人的视觉、听觉,这些能力是直接感知外界。认知层对应的是人类差异于其他生物特有的,比如人的措辞能力、人类对知识的总结、理解、提炼、利用等等,以及对人的理解。AI的开放平台不仅支持百度内部的运用还支持所有的互助伙伴,现已开放了60多个能力,在公司内部,每天大概有几千亿的调用量,而在外部也有数以亿计的调用。在此根本上,百度希望跟所有各行各业的互助伙伴一起打造技能的平台,形成良性循环的生态,从而成长出各种各样的创新运用。
百度从做互联网To C(针对消费者)的产品到开始做大量支持To B(面向企业做事)的运用。这些都依赖于人工智能技能布局的实现。下面将对每层技能布局的关键技能展开解释。
一、根本层:大数据、算法和大打算
现在每一个人每一天会产生非常多的数据,如个人的行为、生理状态的变革,如果要监测、记录的话,都有非常弘大的数据。况且,每一个人每天都在跟互联网打交道,或者是自己建网站,或者向网长进献数据,乃至在利用互联网过程中,也会产生很多数据。一定程度上,互联网已经成为全体客不雅观天下的镜像。以是,节制好、利用好、剖析好这些互联网数据,在很大程度上也是对客不雅观天下很主要的刻画和理解。
总体上,大数据技能分为几个方面,比如数据的采集、提炼以及运用。如果对一个零售商店数据里的用户进行建模,某一个用户可能是白领,另一个是主妇,这样的行业数据经由剖析就可以帮助商户更好地进行营销行为。另一方面,百度根本的打算载体是数据中央,有20多个大型的数据中央,不但是在中国,在世界各地都设立了大数据中央,也有海内最大的GPU集群,有非常强的带宽和吞吐能力,还有像集装箱一样,模块化的打算中央。
二、感知层:语音、图像、视频、AR/VR
语音技能的打破有很多方向,如识别、合成和唤醒,这是我们现在比较看重的,由于市场运用的需求很大。比如语音识别,已经达到97%以上的准确率。现在随着人工智能运用的深入,在家居场景、车载场景等等,越来越多的语音识别不是对着麦克风说,而是要有一定间隔,这就涉及到远场的语音识别。这与现在手机上的麦克风不一样,首先会有定位,还有一系列新的技能待办理。合成想做得非常好,特殊自然、流畅,而且可以是个性化的,包括把人的感情变革等都带进去,就变得非常难。
这里不但是语音和声学旗子暗记处理问题,同时涉及到对措辞的理解、对人的理解,这样才能做出有感情、个性化的合成。唤醒,是须要设备的时候就叫一声,它就知道你要跟它说话,比如家居场景的一个智能音箱或者智能电视,这时候就须要唤醒技能。唤醒技能的困难在于我们要掌握误唤醒,比如在家里放一个智能音箱,如果不叫它的时候,忽然之间它自己就跳起来了,或者睡觉的时候,有点外界噪音,它就忽然跳起来,体验会很差。以是,掌握住误唤醒很主要也很有寻衅。
图像方面,人脸识别是打算机视觉的一个主要方向。人脸分为静态和动态。静态,如一张图片,检测里面有没有人脸,或者有两张照片,比对一下两处涌现的是不是同一个人,这方面的准确率已经很高了。而识别动态图像的时候更繁芜一点,比如有一段视频,首先要定位这些人脸,而这里会产生很多运用,比如在很长的视频流里找到一个人。
其余,我们可以对图像进行识别匹配,做语义的标注,粒度很细,如一幅图里很详细地找到个中一个部分是什么,这里可以做很多细粒度的图像识别。OCR是图像识别里相对详细的方向,如清华也有OCR方向做得非常好的老师和课题组。现在OCR技能不仅可以扫描书,更可以识别一个表格或者一个很繁芜的构造,如发票,不但把里面的笔墨识别出来,还可以把一个区域识别出来的笔墨构造化,整体上会做很多定制化的识别。
视频不同于图像有很多威信的数据集,视频数据集本身还不足成熟。视频很多是人工标注好的,比如标题、内容,但是还有很多视频人工标注不足完善,这时候就须要视频语义理解技能把这个视频标注出来,包括这个视频到底是哪一类,视频的标题,如果相对长的视频,就把个中亮点怎么样也摘录出来。
机器人视觉涉及到怎么样做定位,做舆图的重修,包括检测障碍物等等。领先的SLAM技能,有很多算法。前面讲的图像和视频技能,在机器人视觉里都会有运用。增强现实(AR/VR)是一个独立的方向,但是跟视觉技能有很多关系,常日拍一个照片,会触发出增强现实的效果,相应地会涉及到三维感知、跟踪、渲染等技能。
三、认知层:自然措辞处理、知识图谱和用户画像
自然措辞处理的范围广泛,如果细分的话,有很多子领域,较宏不雅观地可划分为措辞的理解和天生,以及相应的运用系统。一方面要理解人的措辞,另一方面要表达,能天生措辞。比如,基本的分词、短语剖析,核心的办理思路便是做句法的剖析和语义的理解或意图的理解。如搜索“想去一家宠物医院,医院附近要有停车位”。这是人的一种自然的表达,如果让打算机能够理解,就要把意图提取出来,从很繁芜的话等分析出其核心意图,然后再去找相应的答案。
图示:用传统信息检索和搜索算法搜索“蒋英的女儿是谁”和“蒋英是谁的女儿”,会找到同样的答案,由于传统的信息检索是不管语序的。这时候我们就要做真正的自然措辞剖析和理解,知道它们实际上是在找不同的答案。这背后是知识图谱的支撑,大家可以看到构造化的图文并茂的结果。
我们看一篇文章、一本书,这时候不仅仅是理解个中每一句话,而是对整篇文章有一个理解,便是篇章的理解。篇章的理解,可以把全体篇章打上主题标签,打上各种实体标签,而这些对打算机来讲便是理解了这篇文章。在运用时,为了不同的运用,标签会有不同的形式,如用在资讯流里,打上这些标签往后,就可以匹配用户的兴趣,从而推举给用户一篇他可能感兴趣的文章。
除了理解句子、篇章、笔墨以外,人写一句话、写一首诗亦或写一篇文章,都是带有情绪方向的,以是相应地,我们也做情绪方向的剖析,包括用户看了一篇文章往后,下面有很多评论,这些评论本身我们也会做不雅观点的抽取。
除了剖析、理解以外,还有天生。我们考试测验过写诗、写对联等,比如在手机百度信息流里看到的文章,很多都是人写的,但也有很大一部分是机器自动写成的。我们做过各种测试,用户基本上分辨不出来到底是人写的还是机器写的,这解释机器写的还是很不错的。其次,人要与智能硬件展开交互,对话过程中涉及到对“人说的话”的理解和预测人如何说下一句话,相称于理解和天生两方面都在用,这里面便是对话管理以及交互的技能。
到目前为止,我们讲的都是一种措辞,都是中文,但“百度翻译”是办理多措辞问题的,在28种措辞之间互译,互译的方向大概是700多个,每天有过亿次的翻译要求。同时也结合了语音技能、视觉技能,延伸出了语音会话翻译、拍照翻译等等运用。
人类几千年传承下来的知识,是人类能一步一步不断向提高步的原动力,而做这些知识的累积和传承很主要的载体是知识图谱,知识图谱里面一些基本的单位,如实体,现在我们的知识图谱已经有几亿个实体,每个实体会有很多属性,实体与实体之间也会有很多关系,这些关系就构成很多事实,如A和B两个人可能是老师和学生的关系,这便是一个事实,我们已经积累了几千亿事实。
知识不但是静态的存取,而且涉及到知识打算和推理。比如,离圣诞节还有多少天,系统知道本日是哪一天,圣诞节是哪一天,系统会以此动态做一个打算。再比如,民航有一些规章,基于这些规章问一个问题,能不能“带打火机上飞机”,系统会根据这些规章的规则,判断这个问题的答案是“是”还是“否”。其次,我们要理解用户本身的需求,以是对用户画像也是非常主要的方向。现在百度积累了非常丰富的用户画像,有非常多细分的标签,如一个人可以从人口属性、行为习气、长期兴趣、位置、短期意图等五个维度去刻画,形成低级的用户画像,构建个体模型。
四、平台以及生态层
这一层更多集中在百度大脑(ai.baidu.com),完全的生态包括云和端两大部分。百度云是很大的打算平台,不但是百度可以用,而且开放给所有的互助伙伴,变成根本的支撑平台,上面有百度大脑的各种能力。同时还有一些垂直的办理方案,比如基于自然措辞的人机交互的新一代操作系统,以及与智能驾驶干系的Apollo。整车厂商可以调用个中他们须要的能力,汽车电子厂商也可以调用他们须要的相应能力,大家共建全体平台和生态。
五、运用层
语音搜索,是范例的在搜索上引入一些AI能力之后的产品形态,这里不是一个“语音识别+大略的搜索”,而是我们直接语音输入我们想要的字的时候,如果涌现多音字,如俪、莉,就会涌现缺点,但如果用户说:“茉莉的莉”,语音纠错就会自动修正成“莉”,然后找到用户终极想要的答案。以是这就须要很多干系技能的支持。图像搜索也是,我们做了很多图像搜索干系的考试测验。
例如,找题很困难,很多学生做题,题里有图、有公式,想把内容输入进去就很难,以是拍照就变成特殊方便的办法,这里就会结合OCR的技能,对图像做识别。智能问答、个性化推举等同样是综合了多种AI能力,如知识图谱、NLP、用户理解等,把答案或资讯更直不雅观、更有针对性地展现给用户。除了互联网运用,我们也在考试测验AI能力与各行各业的结合,如智能客服、聪慧机场等。
人工智能正在成为这个时期技能变革的核心驱动力,AI在To B领域的渗入将会给各行各业带来革命性的改变,也会对人们的日常生活产生巨大的影响。人工智能运用广泛,其实际浸染绝不仅仅在互联网,就像我们已经很难想象任何一个行业离开电该如何运转一样,人工智能也会是新时期的电力。
可以预见,人工智能必将无处不在。
"大众年夜众号后台回答关键词“0911”,下载王海峰演讲PPT。