WebVision是2017年以来新的大规模图像识别任务威信寻衅赛事,其数据量超过ImageNet。相较于ImageNet竞赛数据,WebVision竞赛的数据集直接从互联网爬取,未经人工标注或筛选,识别难度大,但同时也更贴近实际场景。
本次竞赛中,主理方将数据凑集由1000类扩大到5000类,演习数据量由240万张图片扩大到1600万张图片,数据量更弘大,识别难度大幅提高。WebVision今年共吸引了环球100多支团队参加,涵盖浩瀚顶尖科技公司和有名高校,百度以领先第二名3.95个绝对百分点的精良成绩得到WebVision竞赛冠军。
图像识别是打算机视觉主要的根本问题之一。据悉,百度视觉团队从2013年起开始构建超大规模的图像分类系统,个中大部分演习数据均通过互联网搜索引擎获取,目前已构建起包含10万类Tag(标签),近亿图片的演习系统。据悉,该系统已经为百度Feed流等浩瀚百度核心产品线赋能,并为华为、小米等海内一流手机厂商供应精准的物体识别。
在视频理解领域,百度视觉技能团队在ActivityNet 2018中击败浩瀚参赛单位和军队,获两项任务冠军,干系技能论文已揭橥于CVPR、AAAI等顶级学术会议。
ActivityNet是目前视频理解领域影响力最大的赛事,与每年的顶级学术会议CVPR一起召开,今年共举办6项比赛。个中,Kinetics视频动作识别任务是业界最威信的视频分类数据集,百度连续两年斩获该项任务冠军,并将均匀缺点率由12.4%降至10.9%。Kinetics数据集包含40万演习短视频语料,400个种别,今年主理方将数据集由400类扩大到600类,演习数据从40万增加到50万,包含的标签均为人类日常行为,更贴近实际。此外,百度在动作片段判断Proposal任务中获第一名,AUC领先第二名1.6个绝对百分点。
视频理解技能作为主要的打算机视觉技能之一,可以深度解析视频语义内容,进而输出视频相应元素,赞助人工审核编辑,提升精准用户推举,丰富视频内容生产。百度这次获奖的技能已运用于百度线上Feed视频自动分类系统,供应视频语义化解析,在视频打标签、视频比对和视频推举等业务上均发挥了主要浸染。
去年,百度OCR(笔墨识别)技能在ICDAR竞赛数据集最具寻衅的竞赛任务“Incidental Scene Text(自然场景随拍笔墨识别)”中,检测、识别和端到端三个核心技能领域近两年来多次排名天下第一,具备明显领先上风。
据悉,百度视觉识别技能不仅为百度内部产品带来颠覆性的改变,也持续对外输出技能实力。百度打算机视觉技能也已全线开放,包括人脸识别、笔墨识别(OCR)、图像审核、图像识别&图像搜索5大种别、58项根本能力,已做事于几十万开拓者,它将持续为各行各业赋能,推动百度人工智能技能产品的快速落地。