不过五年的光阴,站在 2018 年再去看这一年发生的故事,百度、Google、Facebook 都做了一件颇具前瞻性的布局:深度学习。研究深度神经网络生平 Jeff Hinton,为 Google 带来的不仅是技能,更是学术和人才吸引力;在 Yann LeCun 的帮助下,Facebook 也从社交巨人摇身变为这个星球上最有技能的互联网公司之一;而百度,也将深度学习从一款款产品扩展到大家可用的「技能根本举动步伐」,成为中国人工智能公司的代表。
正是这样前瞻性的布局,使得三家公司在接下来几年深度学习大热的行业背景下积攒了强大的人才、技能上风,与此同时,三家公司也都将深度学习作为人类迈向智能社会的阶梯,先后开放了自己的深度学习开拓框架,与环球开拓者共同努力,实现人工智能的伟大梦想。
上述故事或许也将迎来一个新循环。本周,一个百度内部新成立的部门引发人工智能领域的浩瀚关注。
根据媒体的干系宣布,百度这个名叫「深度学习技能平台部」的新部门,所瞄准的也是当下人工智能最热门的深度学习领域,其核心事情将是推动目前海内唯一开源深度学习框架PadddlePaddle的研发,并以此推动人工智能的运用落地,尤其是在工业级场景中的落地。
如果说五年前各大巨子的布局是将深度学习从学术研究带到工业界研究,那么百度此举的更深一层解读便是,这家公司希望深度学习不单单是让人尖叫的奇技淫巧,更是可以在各行各业运用的通用技能。
这一次百度是否有能力再次引领深度学习的潮流呢?直接回答这个问题之前,不妨先来看看百度在深度学习领域有哪些底牌。
技能上风:为何 PaddlePaddle 如此主要?
深度学习爆发,离不开三大要素:算法、打算能力以及数据。对绝大多数开拓者而言,这三项开展深度学习研发的基本条件险些是个无法迈进的门槛。也正是这样的背景下,行业内的大公司都会通过将自己的深度学习框架开源,向广大开拓者供应算法模型、部分数据以及一定的打算能力,Facebook 的 Cafe、Google 的 Tensorflow 无一不是如此。
2016 年,百度正式开源 PaddlePaddle,这是一个面向环球的深度学习开源框架,而且是中国首个,也是唯一一个深度学习开源框架。
百度的深度学习研发由来已久。早在 2010年,百度就开始在搜索引擎中运用机器学习;两年后,启动深度学习技能研发并将研究运用在百度的多款产品之中,PaddlePaddle 正是从百度内部孵化。干系资料显示,该项目出自百度 2013 年景立的深度学习实验室,在百度内部发展 3年旁边的韶光,考虑到百度内部繁芜的业务需求,也充分佐证了 PadddlePaddle 架构的可用性。
其次,深度学习的爆发,除了算法和打算能力的打破,更离不开互联网海量数据的喂养。作为互联网公司的百度,在数据方面拥有得天独厚的上风,数据上的上风会加速算法的迭代,终极惠及开拓者。
第三,PaddlePaddle 有着非常完备和完好的文档支持。同时,针对中国市场的需求,比如图像识别、机器翻译等需求,PaddlePaddle 也供应了一整套算法模型,可以有效知足上述业务需求。
从行业发展的趋势来看,不管是 Google TensorFlow 还是 Caffe 以及百度的 PaddlePaddle,都无一例外在做一件事情:降落深度学习的开拓门槛。而比较于 Google TensorFlow 对付底层架构的重视,PaddlePaddle 在架构设计上更易用也更灵巧,它将浩瀚算法完全封装在一起,包括打算机视觉(CV)、自然措辞措辞理解等多种多常用算法。
这些算法都针对某个特定场景,开拓者可以更方便地将其与业务集成,这意味着,开拓者只需调用自己的数据,并按照算法示例进行修正,就能快速支配运用。
另一方面,当下主流深度学习框架都追求分布式支配。分布式的好处显而易见,利用随时可伸缩的打算资源,能够大幅提升深度学习的效率。以 PaddlePaddle 为例,这个框架本身就支持多种分布式集群的支配和运行办法,比如 fabric集群、openmpi集群、Kubernetes单机、Kubernetes distributed分布式等。在分布式集群中,演习数据会「分发」到不同的打算节点,打算节点会和分布式的参数做事器保持通信,终极形成一个闭环。
末了不得不提的是,PaddlePaddle 自开源之后也进入到一个良性互动、高速迭代的快车道。2017 年 11 月,随着 PaddlePaddle Fliud 的发布,该开源框架的性能和易用性有了更大提升,可以在占用更小显存资源的条件下,实现比主流深度学习框架快1——2倍的成绩,还能供应弹性深度学习,根据现有打算资源,调度分布式任务的数目,担保那些打算资源缺失落风险的任务能够被实行等等。
而在今年 7 月的百度开拓者大会上,PaddlePaddle 3.0 正式亮相, 供应了核心框架 PaddlePaddle Fluid、PaddlePaddle Serving、PaddlePaddle Mobile,以及零门槛的快速运用平台EasyDL、AutoDL网络平台自动化设计以及AI Studio在线实训平台等。
某种意义上,PaddlePaddle 是百度在深度学习研发的集大成者,而在 开源社区 Github 上,PaddlePaddle PaddlePaddle 已得到了 7300+个 star(类似于关注),将近 2000+ fork(类似于开始开拓),这也充分解释了业界对付 PaddlePaddle 以及百度深度学习技能积累的认可。
场景上风:PaddlePaddle 的工业级落地能力?
当下,困扰深度学习进一步发展的不是算法、算力或者数据,而是如何将深度学习从实验室带入现实生活。换句话说,如何在深度学习模型演习之外,向开拓者、互助伙伴供应产品落地的机会,正在成为深度学习以及人工智能领域竞争的关键。
百度在这方面显然已经有了不少考量。
首先,百度环绕 PaddlePaddle 开源框架,可以让人工智能开拓者实现技能研发的闭环。比如,依托国家工程实验室和其他互助伙伴的开放数据集,可以办理开拓者的数据荒。
其次,PaddlePaddle 的生态做事渐趋完善,从线上(线下)公开课到 AI 大赛再到与高校互助,这一系列举措让 PaddlePaddle 的生态具备了技能、家当、人才等多重效应。
第三,百度也在探索深度学习的工业级运用,目前已开放近 20 种工业级模型,比如在农业领域,北京工业大学的四位学生利用 PaddlePaddle 制造了一台智能桃子分拣机,实现桃子的自动分拣;而在医疗运用处景里,援藏年夜夫陈静飞借助基于 PaddlePaddle 的百度定制化演习与做事平台EasyDL,进行显微镜下寄生虫虫卵识别,赞助考验职员进行干系诊断等等。这些工业级模型脱胎于现实业务场景之中,开拓者、互助伙伴可以非常方便地调用、优化并运用到自己的业务场景里。
更主要的一点,组成深度学习技能平台部的职员不仅拥有技能大拿,也拥有多位在业务第一线多年摸爬滚打的业务骨干,还包括多位与学术领域有密切联系的研究型人才。
根据官方透露的称,两位高等别AI技能大牛于佃海、马艳军分任总架构师和部门卖力人。这两位常年奋斗在百度人工智能业务第一线,从理论、算法到产品落地,都拥有非常丰富的实战履历。
这样的职员组成一方面当然展示了百度豪华的 AI 人才储备,同时也展现了百度对付 PaddlePaddle 未来发展的野心,正如百度 AI 技能平台体系卖力人王海峰所言:「新力量的加入,将推进 PaddlePaddle 在根本框架设计的领先性、算法模型的丰富性、系统性能和稳定性、异构硬件支持的完备性等多个层面更快提升,进一步加速深度学习技能全面走向各行各业,为行业深度赋能。」
写在末了:深度学习领域,中国须要自己的平台和开拓者
这次百度设立专门研发 PaddlePaddle 的深度学习技能部,并配备了多名骨干精英,充分解释了PaddlePaddle 在其内部的主要浸染,而不管是技能上风还是落地能力,PaddlePaddle 也正在成为中国 AI 发展的主要风向标,这对付广大深度学习从业者而言,又何尝不是一件幸事。
如今,人工智能的竞争已经成为中美两国的「二人转」。作为一个扎根中国、面向中国开拓者的深度学习开源平台,PaddlePaddle 之于中国深度学习发展的意义不言而喻,中国须要属于自己的开源框架,也须要更多基于中国市场需求进行创新的开拓者,PaddlePaddle 天下级的技能能力与业界领先的工业级落地能力,是承载中国开拓者创新、创业梦想的舞台,也将使得中国在未来中美人工智能竞争中拥有不小的话语权。