数字视网膜演化简史

作者 | 贾伟

编辑 | 丛末

一位学者在学术领域开山立派，最显著的一个标志便是某个学术观点能够与该学者划等号，例如当提起相对论一定会遐想到爱因斯坦。

同样的道理，当提起「数字视网膜」这一观点，人们首先能想到确当属中国工程院高文院士。

数字视网膜演化简史

所谓数字视网膜，即类比于人类视网膜，对传统摄像头乃至视觉打算架构进行演进与改造，从而能够更加智能地支持城市大脑，做事智能安防、城市风雅管理等智能运用。

更为详细的来说，传统摄像头只是把拍摄到的视频数据压缩后上传到云端进行存储，再做剖析识别处理；而数字视网膜则哀求在摄像头端对拍摄视频进行高质量视频编码和视觉特色提取编码，对压缩编码过后的视频流进行本地存储的同时按需上传到云端，而所有的紧凑特色流同步实时同步到云端，从而既能够担保高效的存储，又能够便捷地支撑大数据查询剖析，与此同时支持在端-边-云之间进行面向智能视频编码和特色剖析的深度学习模型自适应迁移、压缩、更新与转换。
简而言之，数字视网膜便是这样一种包含视频编码流、特色编码流和模型更新流的可伸缩端边云协同视觉打算架构。

传统视觉感知系统

数字视网膜技能系统框架

这一观点从正式提出至今，才不过两年，然而从最初构想，前期实践，到理论根本构建却花了近五年的韶光。
纵然到现在，数据视网膜的技能框架也仍旧在不断完善当中，但其影响却将是颠覆性的。
正如高文院士在2018年的一篇文章[1]中提到：

我国已明确提出“到2020年，基本实现全域覆盖、全网共享、全时可用、全程可控的公共安全视频监控培植联网运用”，但是如果没有重大技能打破，数千万摄像头根本无法实现“全网共享”的实时数据汇聚，更不可能实现“全时可用”的联网剖析识别，“数据大”变不成“大数据”，巨大潜在代价无法发掘。
数字视网膜是应对上述寻衅的一种可行的颠覆性技能发展方向。

1、雏形酝酿

高文院士对付「数字视网膜」的理解，是伴随着对城市中视频监控体系所存在问题的深刻认识而不断深化的。

据可稽核资料，高文院士最早对城市中摄像头所存在毛病以及可能的改进进行思考始于2013年初（或者稍早）。
在2013年新年伊始，高文院士曾接管公民网采访[2]，他提到当代摄像头密布，但还须要后端人力去盯，一旦碰着重大案件，去调用录像资料，却每每起不到太大浸染。
如果能够在设计视频编码时，让系统把数据中有用的信息抽取、挖掘并剖析出来，不但能节省后期的人力投入，而且能起到应急浸染。

可以认为，这个时候，他已经有了模糊的观点，但对付详细如何去做，却仍在酝酿当中。

在2013年10月，高文院士在中国信息化周报上揭橥了题为《聪慧城市中的视频编码、剖析与评测》的文章[3]。
在这篇文章中，他首次系统提出了他对“聪慧城市”中视频监控所存在问题的深入思考，他指出：

1、目前的监控系统在设计时是为了视频存储和以人为核心的视频跟踪，而非以打算机为中央的自动剖析，因此靠这样一套系统来实现聪慧城市的视频系统，去做自动剖析，是根本无法完成的。

2、聪慧城市中的视频技能面临三大问题，分别是存储本钱高（数据量太大）、检索困难、工具再标识难。
而这三个问题归结到实质则是两个问题，一个是编码问题，而另一个是视频剖析识别问题。
因此如何对监控视频进行高效视频编码，以及如何对其进行剖析和检索，是必须思考的两个实质问题。

3、在学术界存在一个奇怪征象，即做视频编码的学者对视频剖析不感兴趣；而反过来，做视频剖析的人对编码也不感兴趣。
缘故原由在于前者处理的是像素和图像块，属于图像处理领域，而后者处理的是图像特色，属于模式识别领域。
就像两条路上跑的车很难交汇。

幸运的是，高文院士恰好跨界这两个圈子，无论是在视频编码领域，还是在打算机视觉（特殊是人脸识别）领域，他都有着重要的影响力。
其学生陈熙霖、山世光两位研究员继续了他在人脸识别领域的衣钵，如今已成为国际打算机视觉领域的领军人物；而其学生黄铁军和马思伟两位教授则继续了他在编码领域的衣钵，在国际视频编码领域也有着重要的影响力。
[4]

高文院士对当代城市监控系统存在问题的实质剖析，只管只是雏形，但却奠定了他在随后办理这一问题的研究思路和方向。
特殊是在2014年的“第二届聪慧城市与智能系统院士论坛”上，他提出“我们希望把编码和剖析所做的技能领悟在一起，集中在一个编码的框架下。
”[5]

然而，只管有了大致的方向，但由于以深度学习为代表的新一代人工智能刚刚兴起，许多人对深度学习都还不太熟习，当时的算法和算力还不敷以支持这种设想的技能。
当然，从已有的资料中也可以看出，高文院士当时对这一问题的剖析和解决方案设想中，对如何将深度学习与视频编码进行领悟彷佛也并没有很深入的想法，仍旧因此“前深度学习”的模式在思考。

2、仿生：数字视网膜

韶光一晃，来到了2016年。
随着人工智能的发展，打算机视觉变得红红火火。
大量以打算机视觉为技能根本的初创公司相继成立，传统安防企业也逐步转型。
城市安防成为了一个成本竞赛的大市场，高文院士之条件到城市视频监控的三大问题（存储本钱高、检索困难、工具再标识难）也显得越加尖锐。

在这些年当中，高文院士逐步将原有的框架丰满起来，然而若想把这一理念落到实处，还须要详细的场景，毕竟这是一个以工程为主体的研究。
正如他在随后的一篇文章[1]中提到：

“须要建立一个大规模测试平台来评估和展示数字视网膜架构的技能上风。
这个平台至少该当包括上万路的监控摄像头，地理上覆盖一个中等以上城市，从而可以在真实场景中评估与数字视网膜干系的算法和技能。
”

巧合的是，2016年以王坚为主导的阿里云在杭州开始试点培植城市大脑。
[6]这正符合高文院士研究的需求，于是与王坚等人一拍即合。
为了更好的互助，2017年7月，高文院士以前的学生团队成立了一家名为「博雅鸿图」（「博雅」取自北大「博雅塔」；而「鸿图」为立意高远之意）的公司，高文院士担当董事长，依托北京大学数字视频编解码技能国家工程实验室在数字音视频编解码（AVS）国家标准和视觉特色编码（CDVS）国际标准等方面的技能、标准、人才和家当化上风，致力于视觉智能芯片及系统办理方案的研发及家当化。
[7]

在这期间，高文院士开始跳出编码和打算机视觉的领域，从更广的范围里思考其框架。
一个表现即是，在2017年6月举办的图灵大会上，高文院士做了主题为《Evolution of the Artificial Visual System》的报告。
[8]

高文院士在2017年图灵大会上做报告（来源：腾讯视频截图）

在这个报告中，他首次提出动物视觉的蜕变，以及人类该当借鉴个中的模式，这实质上便是「仿生」。
但在报告中，他仅仅做了类比，虽然没有提出「数据视网膜」的观点，但基本框架已经非常完备。

数字视网膜观点的首次提出，是2017年10月份在深圳举办的安博会上。
[9]

他在这次报告中进一步指出，传统视觉感知系统中监控摄像头为1-1模式：单摄像机单流、单用场。
这种模式是长期自然形成的，效率不高：（1）压缩-解压缩和剖析过程造发展延迟；（2）工具检测、模式识别和场景理解的准确性较低；（3）低利用率，目前的监控系统是为存储数据并再由人工离线检讨而设计，大部分数据在其生存期内始终没有用。
这些是我们当代聪慧城市所不能忍受的，我们须要升级这些“眼睛”。

在这次报告中，他也首次指出数字视网膜包含的三个核心技能：

1、基于背景模型的场景视频编码。
现有监控摄像头采取的视频编码技能标准对监控视频编码效率不高，由于这些标准紧张是针对广播电视视频制订的。
在监控场景下，大多数摄像头是固定的，背景相对不变，因而如能够利用背景预测，肃清相应的冗余信息，那么编码效率将大大提高。

2、视频特色的紧凑表达。
视觉表征是图像视频剖析处理的根本，如果在摄像头端利用人工设计特色与深度学习特色自适应领悟技能提取帧内帧间视觉紧凑表示，然后传送到云端，就能大大提高搜索效率。
他们曾实验表明均匀每帧仅需100bit，可达到与未经压缩特色相称乃至更高的检索性能。

3、视频编码与特色编码的联合优化。
上述两种数据信息并不是相互独立的，而是相互关联，可互为辅导的，因此数字视网膜在同时输出压缩视频流和紧凑特色流时，可以根据码流的大小，设计联合优化函数来打算如何分配各自的码率，从而在保持剖析检索性能的情形下，进一步达到压缩需求，如下图所示。

从图中可以看出，在保持视频编码性能基本不变的情形下，特色编码可大幅度压缩。

高文院士也提到数字视网膜的三个特点，分别为高性能、高效率和可伸缩。

在这次报告中，还值得一提有两点。
首先，他指出数字视网膜是可软件定义的，即特色学习模型和摄像机参数可以实时地从云中央更新（后面又对这一观点做了升级）；其次，针对当前大多数仍旧是传统摄像头（而非数字视网膜摄像头）的实际情形，他提出了基于智能边缘节点的办理方案，也即将卖力特色提取的“视网膜”功能支配在边缘汇聚做事器，而不是改换已经支配的摄像头。

只管“数字视网膜”全体框架都已经搭建完全，且已经在杭州、山东文登、重庆等地做了实际试点，但直到2018年初，干系事情才首次正式见于刊物。

2018年初，高文院士，北京大学田永鸿教授，以及阿里巴巴首席技能官王坚博士（2019年被评比为中国工程院院士）在《中国科学》期刊上联名揭橥了一篇名为《数字视网膜：聪慧城市系统演进的关键环节》。
[1]

这篇文章首次完全、清晰且严谨地定义了「数字视网膜」的观点：

如何借鉴“人类视网膜同时具有影像编码与特色编码功能”这生平物特性来研究和设计一种更高效的摄像头。
我们称之为数字视网膜摄像头(retina-like camera)，简称为数字视网膜(digitalretina)。

数字视网膜的核心在于“单摄像机双数据流”，个中压缩视频流是为了存储和离线不雅观看，而紧凑特色流则是为了大数据剖析与搜索。

文章也对不久前安博会上报告内容做了更为严谨的描述，同时也首次提出了数字视网膜所必须知足的五个条件：(a)利用全网统一的韶光；(b)供应精确地理位置；(c)供应视频数据的高效编码功能；(d)供应视频数据的紧凑特色表达；(e)支持视频编码与特色表达的联合优化。

考虑数字视网膜研究未来可能的蜕变路线，高文等人在这篇文章中提出三点，分别为：（1）标准化，该研究落地到实际生活中，必须在不同厂商及城市之间形成统一的标准；（2）软硬件开源，对付这样的根本工程来讲，如果无法做到软硬件开源，干系的技能和产品就无法做到有效的开拓和运用；（3）大规模测试床，这也是我们前面所提到的，不同于理论研究，数字视网膜本身更倾向运用工程，因此必须有真实场景的测试才能够推进发展。

针对以上三点，高文院士等人也有相应的动作，例如积极推动的AVS2、MPEG CDVS及其扩展MPEG CDVA等。
[9]

此外，2017年7月，由高文院士、潘云鹤院士、黄铁军教授等带头发起成立的「新一代人工智能家当技能创新计策同盟」，也在创立之初就积极推动成立人工智能开源开放平台培植。
[10]

在寻求建立大规模测试平台来评估和展示数字视网膜架构的技能上风方面，除与阿里云互助在杭州试点外，2018年3月，深圳市也成立了“鹏城实验室”，高文院士担当实验室主任，由此开启了深圳试点。
[11]

因此，《数字视网膜：聪慧城市系统演进的关键环节》这篇文章的揭橥具有标志性意义，它也意味着高文院士对付「数字视网膜」的定义正式成形，研究格局基本确立。

3、从「双流」到「多流」

按照上述所示的框架，高文院士所带领的团队（包括其所担当董事长的博雅鸿图）一贯在完善从前端到后端，从软件到硬件的探索和设计。

从实质上来说，聪慧城市的数字视网膜便是在摄像头中嵌入芯片，从而能够将获取的视觉数据经由高效编码和紧凑特色提取后，传送给城市大脑（后端云），以便更为高效、灵巧地检索和剖析。
这里涉及到两种数据流，分别为视频编码流和特色编码流。

但这种架构忽略了一个问题，即数字视网膜的芯片在做特色提取时，依赖于良好的深度学习模型。
为了保障特色提取的准确性，城市大脑常日须要利用搜集到的数据进行学习，演习相应的模型，再将学到的模型发送给前端设备。
因此，模型的天生、利用和通信对数字视网膜至关主要，特殊是视频数据在位置、韶光和环境等方面差异很大的情形下。
因此，在视频编码流和特色编码流之外，模型编码流同样是非常主要的一部分。

因此，随着对数字视网膜实践和认识的深入，其构造由「双流」变为了「多流」：视频编码流、特色编码流和模型更新流。

针对这一观点，高文院士最早是在2019年11月尾在山东济南召开的“2019天下人工智能领悟发展大会”上提出的。
[12]

但事实上，他们对此的研究早已开始。

在2019年7月，由北大段凌宇教授课题组在打算机多媒体领域国际学术会议IEEE ICME上揭橥了《聪慧城市数字视网膜的模型天生、利用和传输范式》（Towards Digital Retina in Smart Cities: A Model Generation, Utilization and Communication Paradigm）一文[13]，这篇文章首次提出视频流、特色流与模型流的协作打算模式，以战胜端-边-云环境下的模型复用与传输瓶颈。
值得一提的是，这篇文章还得到了这届会议的最佳论文奖。
[14]

段凌宇教授课题组在数字视网膜研究与实践中创造，数字视网膜打算框架下的边缘节点缓存了大量表征模型与无标签数据。
为此，课题组提出了一种多模型复用机制，有效利用了边缘节点缓存的模型和数据，天生更具域适应性和判别力的目标模型。
针对多模型复用过程中的模型演习稳定性，论文给出了理论证明与剖析，并在实验中取得了比较传统方法更优的性能增益。
在视网膜打算框架下，模型的频繁传输与支配会带来较大的通信开销。
为了提升模型更新效率，进一步提出了模型间高效通信的新问题，并提出了一种新颖的差分模型压缩方法，比较传统的单模型压缩方法，可有效降落模型传输码率开销。
该论文环绕视频流、特色流、模型流，提出了城市视觉系统中的协同打算新问题，对付未来数字视网膜理论研究与实践具有辅导意义。
[14]

2019年10月由博雅鸿图公司研制的第一款数字视网膜芯片—“鸿图 TMGV9531ESHI”流片成功。
在同月的第二届雁栖航天论坛上，高文院士对该芯片进行了详细先容。

在“2019天下人工智能领悟发展大会”上，高文院士提到，[12] “第一款数字视网膜芯片已经在路上，很快就会发布，这个芯片很小，就像一块钱硬币一样，但却把我刚才说的三个实质特色、八个功能全都包含在里面。
将来，这种芯片可能会直接进入各种智能交通的系统里，会支撑数字视网膜的运用。
”

2019年11月22日在杭州举行了第一款数字视网膜芯片发布会和数字视网膜生态伙伴启动仪式，正式命名为“鸿芯图腾GV9531”对外亮相。

“鸿芯图腾GV9531”是首款支持数字视网膜技能体系的智能芯片，也是首颗AVS2视频编码芯片，它对数字视网膜技能进行了完全的诠释，支持全局统一的时空ID、多层次视网膜表示和模型更新及软件定义，在边缘端实现数字视网膜技能的高能效处理，不仅能减少进入云真个无用数据量，还能大大降落视频数据处理的本钱，是数字视网膜边云系统视觉打算框架的核心算力支撑平台，是视觉边缘打算、多流智能处理、实现脑眼合一的视觉打算系统不可短缺的关键环节。

其余，在新的一年里面，数字视网膜的研究会有什么新的进展？更为主要的是，在这一领域，它能够给研究者带来哪些值得研究的新课题？它能够给芯片厂商、安防厂商带来什么新的商机？

这是我们所期待的！

本篇文章的写作，离不开中国图象图形学学会以及北京大学多位老师的支持，在此感谢。

AI科技评论理解到，由中国图象图形学学会主理，新疆大学承办的第二十届全国图象图形学学术会议（NCIG 2020）将于2020年6月28-20日在新疆乌鲁木齐举办。
高文院士将作为特邀讲者[16]，再次为我们带来数字视网膜的最新研究报告，该会议将汇聚海内图像图形及干系领域领军人才，聚焦领域热点问题，多角度全方位洞见未来发展趋势，包含3个特邀报告，2个讲习班，4个论坛，5个竞赛，1个精良博士论坛，多个展览，是海内图像图形领域专家学者互助互换的平台，值得期待！

NCIG 2020 官方网站：http://ncig2020.csig.org.cn

高文院士简介

高文，北京大学博雅讲席教授。
1982年于哈科大得到学士学位，1985年于哈工大得到硕士学位，1988年和1991分别得到哈工大打算机运用博士学位和东京大学电子工程博士学位。
1991至1996年就职于哈尔滨工业大学，1996至2006就职于中国科学院打算技能研究所，2006年2月至今就职于北京大学。
IEEE Fellow、ACM Fellow、中国工程院院士。
他的研究领域为多媒体和打算机视觉，包括视频编码、视频剖析、多媒体检索、人脸识别、多模态接口和虚拟现实。
他最常被引用的事情是基于模型的视频编码与基于特色的工具表达。
他先后出版著作七本，互助揭橥300余篇期刊论文、700余篇国际会议论文。
先后多次得到国家科技进步奖、国家技能发明奖、国家自然科学奖等学术褒奖。

参考资料：

[1] 数字视网膜：聪慧城市系统演进的关键环节，中国科学：信息科学2018年第48卷第8期：1076–1082

[2] 高文院士：高效视频编码技能前景广阔，公民网（2013年1月10日），http://scitech.people.com.cn/n/2013/0110/c1007-20156410.html

[3] 聪慧城市中的视频编码、剖析与评测，中国信息化周报（2013年10月21日）第 005 版

[4] 高文院士个人主页，http://www.jdl.ac.cn/htm-gaowen/

[5] 与智能视频监控有关的技能寻衅，中国信息化周报（2014年9月22日）第 005 版

[6] 复盘阿里城市大脑这3年（2019年1月25日），https://www.leiphone.com/news/201901/Pq1EAaIrVXM4mDMv.html

[7] 北大高文院士揭橥主要讲话：人工智能数字视网膜芯片到底能做什么（2018年7月7日），http://www.pinlue.com/article/2018/08/0913/386742019905.html

[8] 图灵会议高文院士主题报告（2017年6月8日），https://v.qq.com/x/page/e0511e3veje.html?fr=v.hao123.com

[9] 高文院士50张PPT，带你看懂城市大脑的瓶颈与重大打破点（2017年12月15日），https://www.leiphone.com/news/201711/esDVM34RTfN0mN67.html

[10] 专访黄铁军：以落实国家「新一代人工智能发展方案」为己任的计策同盟，成立8个月做了哪些事？（2018年3月26日），https://www.leiphone.com/news/201803/UJuG5jWfsHxXe26M.html

[11] 鹏城实验室启动大会召开，

http://www.pcl.ac.cn/index.php/home/index/views/id/164.html

[12] 中国工程院院士高文：数字视网膜肃清智能交通痛点 | 天下人工智能领悟发展大会（2019年11月20日），https://www.leiphone.com/news/201911/q5Y20D2wqlFqXSHe.html

[13] Towards Digital Retina in Smart Cities: AModel Generation, Utilization and Communication Paradigm（2019年7月31日），https://arxiv.org/abs/1907.13368

[14] 打算机科学技能系段凌宇教授团队荣获IEEE ICME 2019最佳论文奖（2019年8月2日），https://eecs.pku.edu.cn/info/1023/9885.htm

[15] 数据不出本地，还能享受大数据演习模型，联邦学习供应一种运用广阔的学习新范式（2019年9月11日），https://www.leiphone.com/news/201909/WOcl8I1TjMjXVJd5.html

[16] NCIG 2020第二十届全国图象图形学学术会议，http://ncig2020.csig.org.cn

[17] AI Oriented Large-Scale Video Management forSmart City: Technologies, Standards and Beyond（2017年12月5日），https://arxiv.org/pdf/1712.01432.pdf

[18] 高文院士：用类脑颠覆摄像头，数字视网膜是下一站（2018年9月12日），http://tech.163.com/18/0912/18/DRH97U4S00098IEO.html

[19] 解析高文院士提出的“数字视网膜”体系（2019年5月8日），https://www.iyiou.com/p/99569.html

每期AI知识网

数字视网膜演化简史

18快乐网站,引领新时代网络娱乐潮流的先锋平台

台自研AI显示国籍为中国台中研院院长辩称研究员求快心切