8月7日-8月9日,2020年环球人工智能和机器人峰会(简称“CCF-GAIR 2020”)在深圳准期举办!
CCF-GAIR由中国打算机学会(CCF)主理,喷鼻香港中文大学(深圳)、雷锋网联合承办,鹏城实验室、深圳市人工智能与机器人研究院协办,以“AI新基建 家当新机遇”为大会主题,致力打造海内子工智能和机器人领域规模最大、规格最高、跨界最广的学术、工业和投资领域盛会。
8月9日上午,在「联邦学习与大数据隐私专场」上,同盾科技人工智能研究院首席专家李宏宇博士做了题为「同盾智邦-知识联邦平台:打造数据安全的人工智能生态系统」的演讲。
李宏宇:同盾科技人工智能研究院首席专家,师从国际模式识别学会会士、芬兰模式识别协会主席Jussi Parkkinen教授,相继得到复旦大学以及东芬兰大学打算机科学博士学位。曾任同济大学软件学院副教授、博导。李宏宇博士在图像处理和分类、生物特色识别、OCR、机器学习和深度学习等人工智能的多个领域有着深厚成绩和运用成果,在国际威信学术期刊和一流的国际会议上揭橥了近80篇学术论文,发明专利20余项,出版专著1部。
以下是李宏宇在大会的演讲实录,AI科技评论作了不修正原意的整理和编辑:
本日演讲主题是《同盾智邦-知识联邦平台:打造数据安全的人工智能生态系统》。那么什么是知识联邦?作为一个新的观点,它背后代表着知识共创可共享。详细而言,通过知识的共创和共享,从而实现数据的可用不可见。
从知识的形成的过程来看:从数据到信息,再到知识,末了到利用知识形成决策,知识联邦的目的是希望能够利用各种知识,包括演习出来的模型知识以及逻辑规则等已有的先验知识。
我下面将从背景、干系观点和运用的场景分别磋商知识联邦。
背景:各种技能领悟统一
人工智能的发展离不开数据的支撑,但是现在数据孤岛是普遍存在的征象。例如,机构间存在数据孤岛,企业内部也存在数据孤岛。更有研究表明,现在有92%的企业内部存在非常严重的数据孤岛的征象。
实在,办理数据孤岛不仅是大略地把数据搜集起来,还须要考虑数据安全问题。从最近两年的数据透露事宜就能看出问题的严重性。以是,每一次产生重大社会影响的数据透露事宜都意味着数据安全和隐私保护的确是须要更严格的监管。
在此大背景下,我们也看到在海内一系列法规的进展,例如在今年3月份,最新版本的《个人信息安全规范》,以及央行的个人金融信息的保护技能规范,都能看出数据安全法规的进化明显。
尤其是7月初的时候,《数据安全法》草案已经开始在搜聚见地,标志着一系列宏不雅观的政策在不断地演化,海内对付数据的管控将会更加严格、更加全面。
干系观点:层次化的框架体系
“数据安全”的大环境下,数据隐私的各种问题催生了联邦学习,实在,在过去的这些年来,无论是大数据还是人工智能,每个领域都有一些关于隐私打算的研究,这些研究虽然路线不同、技能方法不同,但是已经逐渐呈现领悟统一的趋势,也便是打造数据安全的人工智能。在这里我们叫它知识联邦。
如上图所示,知识联邦包含了两层意思,一层是知识,一层是联邦。个中,知识不仅包括模型、也包括逻辑规则或者模式。同时,知识也不是纯挚通过演习学习出来的,它还包括履历知识、先验知识,这些可能是知识和行业领域知识,不须要再演习学习。
如何把分散在不同的行业或领域里的知识,充分地利用起来?这便是知识联邦所要做的事情,大略而言是通过数据安全交流协议,利用多个参与方的数据,进行知识的共创、共享和推理。终极的目标是要实现数据可用不可见。
注:不同于密码协议,数据安全交流协议定义了如何在多个参与方之间进行数据交流的过程。
知识联邦不是一个纯挚的技能方法,它是一套框架体系。这个框架体系可以根据联邦发生的阶段,划分为四个层次。第一是信息层的联邦,在数据转换为信息的时候,把这些信息进行打算或者处理,涉及的技能是安全多方打算。然后通过某些先验的知识,通过某些规则直接提取出有代价的信息,末了形成联邦。
第二个是模型层的联邦。也便是常日提到的联邦学习,涉及到模型参数的更新。
第三个是认知层上的联邦。对已有的模型演习、学习,形成了一些浅层的知识,我们再将这些浅层知识联合在一起,进行集成学习,从而得到更优、更好、符合特定运用处景的知识。
第四个是知识层上的联邦。在不同的行业、不同的领域之间有很多知识库,在不同领域、行业的知识库上进行知识推理,便是知识层联邦。以是知识联邦不是纯挚的某一种运用方法,它统一支持了所有的安全多方运用,包括安全多方打算,安全多方学习,安全多方数据共享,以及联邦推理、联邦预测等一系列的综合体。
运用先容:隐私保护干系行业
知识联邦在很多行业里有广泛运用的代价。例如金融领域,做为一个数据监管非常强的行业,知识联邦在此领域的运用更为全面。知识联邦的信息层可以用来办理多头共债的问题,在模型层办理智能风控的问题,反敲诈和企业征信可以分别在认知层和知识层办理。
先看多头共债的问题。常日一个用户可能会与多个平台发生一些借贷关系,这时候就陷入了共债。一旦这个用户发生资金的问题,就有可能导致系统性的风险,乃至导致金融行业的大颠簸。办理多头问题,常日的办法是能够多头评估个人真实的收入。换句话说,便是得到此人的累计的授信和实际已经发生的借贷。但是这样有可能会透露很多查询隐私。
利用知识联邦的查询办法是:提出需求之后第三方向各方查询,查询的时候每家参与机构分别打算他已经得到的授信或风险,把风险通过密文的办法传送给第三方,第三方再把所有的密文构造汇总,汇总之后返还给主动查询方,如此便能担保数据隐私的安全。当然,在这个过程中须要进行一些加密或者同态加密的算法,但是现有很多同态加密的算法耗时非常大,如果能领悟知识联,就能够使它的效能大大提高。
再看智能风控的问题。在办理这个问题的时候,知识联邦方案中采取的是一种不经意传输的方案,让没有标签一方的数据通过多种标签组合的办法,然后形成多种结果,再把中间结果返还给有标签的一方,让它进行筛选,从而挑选有用的信息利用。
如上图真实场景当中的数据示例。假定在数据对齐之后有20万条70维的特色和标签,以及180维的B方的数据,这时如果只利用单方的数据,其KS值相比拟较低,如果利用联邦学习,哪怕是性能一样平常的方法,也会有明显提升的。
下面先容一个工业级的运用产品:智邦平台。随着人工智能的演进,在过去每隔30年,人工智能都有一个非常大的变革,我们是处于AI2.0的时期,如果说这时的AI已经“轻微”有点感知,那么未来知识联邦会是AI3.0的必由之路,帮助AI得到、利用更多的知识。
为了迎合未来的“趋势”,我们打造出了智邦平台,做为知识联邦的参考实现,目的是办理真实运用当中碰着的几个问题:
首先是供应数据安全交流的协议,这是非常主要的一环,由于想知道联邦到底安不屈安,一种验证办法是开源,其余一种办法便是须要非常清楚数据交流过程中发生了什么事情。
第二个是办理了多方参与的数据问题,由于每家机构的数据都是有异构存在的,多元异构的问题是打通所有参与方,形成数据同盟的痛点。
第三个是一站式产品闭环的问题。从特色选择、特色预处理、数据预处理,到算法管理、安全保护,以及末了的模型发布,这一系列产品流程的闭环。
总体上来讲,智邦除了通用的功能和场景化的运用算法之外,底层包含了FLEX协议和数据沙箱,做为支撑平台的两条腿,非常主要。
大略看一下FLEX协议。第一个内容是特色选择,在特色选择的过程当中,都希望不要进行单方的特色选择,否则对方的特色无法发挥它的代价。平台供应了两种特色选择的办法,性能明显是要比只利用单方的数据进行特色选择的效果好很多。
另一个内容是样本的安全对齐。样本对齐哀求保护交集外的数据,平台供应的办法能够做到这一点。而在真正的运用当中,还有更严格的哀求:参与方都希望保护交集内的数据,以是平台提出一种方案叫做双盲对齐。
除了FLEX协议,平台的其余一条“腿”是数据沙箱。它办理的问题是如何把多元异构的数据标准化,然后将统一的数据进行接入。面对“不同的参与方有不同的构造数据,乃至字段定义、命名规则”的问题,可以通过沙箱可以快速实现标准化的处理。其余,沙箱里面也实现了数据分类分集,即根据不同的类型、不同的运用处景的数据,授予其不同的脱敏加密办法,然后统一加密脱敏的办法,末了担保输出的所有参与方数据都保持同等。
同时,沙箱是一个独立的组件,它能够对多个参与方之间的数据进行虚拟的领悟,从而实现安全的多方数据共享。
回过分来看联邦生态中涉及到的角色,有两大类。首先是数据供应者,其次是数据的利用者,包括模型的设计者和模型的利用者。一个真正的联邦生态会兼顾数据的供应者和数据的利用者两方,即不会让数据的供应者担心数据的真正利用方是谁,模型的设计者是谁。
联邦如何勉励参与方加入生态呢?实在所有不同的参与方都有自己的需求,例如数据供应者的原始动力是通过数据进行代价变现、代价最大化。模型的利用者的原动力来自于提升核心竞争力的渴望,同时希望扩大行业影响力。
OMT:同盾科技
同盾科技成立于2013年,总部位于杭州。是一家专注于做智能剖析与决策的公司,目前已经为金融、保险、互联网、政务等行业做事了上万家企业客户。
同盾科技一贯作为独立第三方的角色,持续在人工智能、云打算、大数据剖析等方面做了很多的创新。
在历年的发展过程当中,同盾科技也持续得到了政府、市场以及投资机构的认可,在今年的时候,成功入选了国家科技创新2030“新一代人工智能重大项目”。
同盾一贯以来把人工智能技能的创新与运用作为计策重点,我们在2018年专门成立了AI实验室,在2019年进一步升格成为人工智能研究院,以人工智能研究院为核心载体,稳步推动人工智能计策的布局和履行。在今年初又在美国硅谷成立了美国的AI实验室。
团队的成员非常专注于人工智能底层技能的研究和运用的探索,有着非常丰富的事情履历。例如,团队的领军人物李晓林教授是美国公立常春藤名校佛罗里达大学的终生教授,创立了美国首个国家级深度学习中央,现在专职在同盾事情。
此外,同盾科技背后还有一个非常强大的专家顾问团队,有浙大的潘云鹤院士,还有复旦的杨珉教授,他是国家973首席科学家,也是同盾移动安全领域的首席科学家。
同盾科技在产学研互助方面已经做了非常广的支配,已经跟浙江大学、复旦大学、西北工业大学建立了长期的互助,也跟很多大学的金融机构,例如招联、建行,成立告终合的实验室,紧张聚焦在一些创新性的研究和联邦学习的落地运用。
演讲结束后,李宏宇也接管了雷锋网的采访,以下为雷锋网与李宏宇的对话实录。
问:目前学术界会有哪些标准去衡量联邦学习的效果?
李宏宇:联邦学习衡量好坏,实在要分两个方面。
一方面是说,它的性能在联邦之后和之前比较,是否有实质上的大幅提升?就像我们在演讲中提到的,如果纯挚用一家参与方的自有数据去演习学习,可能它只能达到ks值0.35;但借用了其他参与方的一些数据上风之后,可能会达到0.37乃至更高。
此时从指标上来讲是没有变革,但从性能比拟上来讲,它一定会是远远大于那种利用单方数据的情形。当然这里面取决于其他参与方的数据质量如何,便是所谓的数据贡献,它能达到什么级别。同时,它一定不会超过双方数据合在一起后达到的性能效果。
另一方面是安全问题,这时候须要对数据流利过程审计:到底流利了什么数据?在全体数据流利过程当中是否安全合规?是否符合个人信息保护规范和数据安全法的哀求?
详细来讲,不同机构可能各清闲数据流利过程中采取了不同的加密安全策略,以是没有一个固定的标准。这也是未来两年我们急需完成的事情,推动行业标准、国家标准,确定联邦过程、安全认证等级等。
问:有研究指出,联邦学习方法中梯度信息的透露可以反推出部分数据,叨教是有这样的情形存在吗?有没有相应的对策?
李宏宇:如果是纯粹的联邦过程,利用梯度之间的迭代,那是随意马虎被攻击透露一些隐私信息,这是可以反推的——但真正的运用当中不会这么大略,除非对方是一个非常好的黑客,同时懂得网络安全和底层模型加密所有安全策略,否则很难做到。
在数据流利全过程中,有做了几段数据加密过程,在数据预处理时就已加密脱敏。演习过程中又对模型的梯度参数进一步同态加密。之后传给联邦域,又要做非对称加密的网络通道传输——这是一层套一层的保护壳,到末了才担保真正的产品运用。
如果抛开这些东西,只是在空想的实验环境下,比如拿一张图片做所谓的联邦演习,这过程中会有梯度产生的隐私透露,即是是明文数据直接用。但在真实的场景当中,尤其是在金融行业里面,是不可能直接拿着这些明文数据直接用。也便是说理论层面上会有这个情形,但实际运用的层面上不会这样大略直接被攻破。
问:现在联邦学习发展很快,可以说它是个成熟的技能了吗?
李宏宇:联邦学习不仅仅是说联合建模这一件事情,实在早期已经有联合建模的办法了,现在联邦学习是用一种更安全的办法、走线上平台来履行联合建模。
技能是否成熟到可以运用的级别?我们同盾的智邦平台就是非常成熟的工业级运用产品,得到了互助伙伴们,尤其是大型金融机构的同等认可,产品不须要他们再做任何二次改造。
问:智邦平台推出以来,合为难刁难象紧张是哪一些类型的公司?或者侧重哪些业务的运用?
李宏宇:金融里最多的一种是消金、小额贷这种公司做风控,客户群体特色非常光鲜,他们只有少量的自有数据,维度特色有偏差,属性维度也不可能很多种,更须要借助第三方的数据供应方补充,提升模型整体效果。尤其是在同盾的业务体系当中,原来很多客户都是通过联合建模的形式来对外供应做事,现在他们都已经转向了智邦平台。
第二种更多的是银行这种大型金融机构,他们要么不参与,要么就搭建自己的平台,完玉成部生态的搭建。
现在很多大型银行,内部数据孤岛问题很严重,子公司之间每每都由于数据安全而无法充分集成和共享数据。这个时候他们更想要采购一个大的平台,完成自有生态里的补充,打通所有数据孤岛,办理数据安全问题。
问:联邦学习在同盾科技的计策布局中是若何的地位?
李宏宇:联邦学习的确是同盾的生态体系中一个计策重点项目,也是我们未来供应智能决策和剖析做事的根本举动步伐,我们也会逐步把原有生态里干系业务通过智邦平台对外供应数据安全的智能做事。
我们的目标是打通所有的生态体系,在数据供应者和数据模型利用者之间的建立隔离樊篱,让数据供应者不须要关心谁来利用,数据模型利用者不用关心数据到底分布在哪里。
问:今年开始,金融科技开启新十年,您预测接下来这几年会有什么新趋势?或者您会用哪些关键词来描述?
李宏宇:近年来,我国的金融科技发展在国际上算是领先,但也面临着“野蛮成长”的问题,现在已经到了要收紧、趋严监管的状态了。这个状态下,一些金融公司的自有数据明显不能够支撑智能化升级,它们就面临着生存的压力。
比如贷前审核,如果风控模型做得不足好,就会产生一系列隐患,它们一定希望开放,但同时安全隐患要肃清。末了结果一定是通过技能来实现安全和开放的领悟。
在研究层面上,模型算法可能并不是最关键的,运用落地、办理问题才是。人工智能也好,创新性的安全算法研究也好,实在都会不断更新,但我认为这都不会是行业里的主题,主题该当还是安全、开放和领悟。