关键词: “扫街”拍照法 兴趣点 地名地址 测绘学 采集与更新
1、弁言
随着数字城市化管理及测绘地理信息技能的不断发展,政府、企奇迹单位与"大众年夜众对地名地址数据需求的不断增加,湖州市于2011年履行“数字湖州地理空间框架”培植项目,建立了湖州市地名地址数据库。近年来湖州市经济社会快速发展,城市培植风起云涌,地名地址信息大量增加与变革。为了更好地做事于当地政府部门和社会"大众年夜众,每年度须要对建成区地名地址数据库进行必要的更新以担保其现势性。
2、现状剖析
目前,地名地址外业采集方法紧张有三种:传统外业采集方法,基于相机的采集方法,基于自主开拓的手持移动终端(IPAD)的采集方法[1]。传统外业采集方法事情强度大,效率低。基于相机的外业采集方法内外业分别处理,外业采集方便快捷,适宜大面积的区域采集。基于手持移动终真个外业采聚拢适在市区地名地址点密集的区域,内外业处理一体化。根据湖州市项目内容、项目经费和职员配置等成分的综合考量,选取了基于相机的外业采集方法。本文紧张提出了一种基于相机的外业采集改进方案以及与之配套的内业作业方法。
3、地名地址数据库设计
地名地址数据是地理空间框架数据库的主要组成部分,是对地名、地址信息的构造化描述与标识[2]。带有空间坐标的地名地址数据以坐标点位的办法描述某一特定空间位置上自然或人文地理实体的专有名称和属性,用以知足各种专题信息空间定位哀求。
地名地址数据从逻辑上分为地名和地址两部分。
地名包括自然地名和人文地名。自然地名包括水系、山峰等地名,人文地名包括行政区域、交通、水利附属举动步伐、单位名称等地名。兴趣点形成以沿街商铺类兴趣点为主,大厦写字楼阛阓内兴趣点和住宅小区内兴趣点为辅的格局。沿街商铺类兴趣点必须采集,大厦阛阓和住宅小区内部根据须要采集。
地址是由主管部门确定的利用规范的措辞笔墨描述的地理实体的位置,紧张为规范化的门(楼)址信息。构造化描述利用巴科斯范式定义,包括行政区域、基本区域限定物、局部点位置三部分,由地址的干系属性组成。地址数据以地名办张贴的门牌地址为主,没有门牌的以门头宣扬牌等显示地址为准,以讯问和推算为辅的格局。有门牌的地址必须采集,没有门牌且难以推算的可不采集。类似封闭小区等封闭区域内的非"大众年夜众做事性子的兴趣点可不采集,地址只采集楼宇幢号。
4、外业采集方法先容与比对
4.1地名地址采集与更新流程
如图1所示,地名地址的处理可以分为外业采集、内业处理、质检与补测三大步骤,外业采集包括数据预处理、图纸打印、外业数据采集,内业处理包括内业展点和属性录入,质检与补录包括自检、补录、质检、验收。
图1地名地址采集与更新流程图
4.2传统地名地址采集方法
“天地图·湖州”道路、居民地、水系数据可作为湖州市地名地址采集与更新项目的外业调查底图数据,如图2所示。沿街有名称店铺全部实地调查采集,在图纸上或者外业调查表上标记其位置、名称、门牌号、电话、兴趣点种别等信息,并进行拍照,内业处理时,将变动的信息录入地名地址库。
图2外业调查舆图
传统地名地址采集方法能够有效应对各种繁芜环境下的采集任务,但外业数据采集事情强度大,效率较低,已不能适应大面积的采集和更新任务,宜作为其他采集方法的补充。
4.3“扫街”拍照法
为了提高生产效率,降落劳动强度,并担保数据的完全性和可追溯性,本文提出了一种改进的采集方法———“扫街”拍照法。
将相机固定在移动载体上,根据方案路线,设置采样间隔采集一系列连续的、有重叠度的同时带有GPS位置信息的街景照片,当天采集照片完毕,天生带有照片位置和文件路径信息的ArcGIS数据库点要素类(GDB文件),上传至做事器,方便后续多个内业处理职员同时处理,“扫街”拍照法内外业事情示意图如图3所示。
图3“扫街”拍照法内外业事情示意图
项目利用的GoProHERO7Black是一款运动相机,采取鱼眼视角,具有可视范围大、重点突出的上风,同时拥有GPS定位和固定时间间隔连续拍照的功能,符合地名地址外业采集照片的哀求:连续有重叠度、附带位置信息、可视范围大。该相机小巧灵巧,易于安装,方便携带,本钱低廉,将相机固定在电瓶车或汽车等上即可沿街边开展“扫街”事情。
图4GoProHERO7相机安装示例
如图4所示,左边为电瓶车的安装示例,适宜繁芜环境下近间隔拍照,右边为带天窗的汽车的安装示例,适宜开阔地带如城市主干道、次干道等街区拍照,如若两边行道树不是太密集,可在天窗两边各安装一个,以提高“扫街”效率。
内业处理时将GDB文件加载到ArcGIS中,采取超链接的办法,根据点要素表的文件路径字段在ArcGIS中设置超链接,点击点要素即可打开图片浏览,直不雅观地显示了照片与地名地址的位置关系。通过将点要素和照片关联起来,根据照片内容比拟上一年度相同位置的地名地址数据库,确定操作类型并标记删除(D)、新增(A)、更新(U)。属性录入时,参照照片显示的名称、电话号码、地址等信息录入对应属性字段。
为了方便项目管理和质检,也为了及时处理照片,同步外业的进度,可将项目更新区域划分为多个网格,每个内业职员卖力多少网格,末了拼合成终极成果。此方法有利于多个内业职员同时对做事器上的大量照片判读并比对更新。
图5内业照片处理
图5内业照片处理下载原图
图5显示了加载GDB文件、影像和原地名地址库后的视图。蓝色点代表地名地址点的点要素。点击点要素即可浏览外业采集的地名地址照片,并与原地名地址比拟更新。
5、内业处理提升效率关键技能
5.1“扫街”拍照法GDB文件的天生
Python在ArcGIS平台的二次开拓,既能最大化利用ArcGIS软件供应的功能,又可以最大化地知足个性化的需求[3]。因此,项目结合Python措辞PIL图像处理模块和ArcGIS二次开拓编写了一款脚本工具,用于提取所选路径下所有JPG照片中Exif的GPS位置信息、韶光信息[4],并结合照片路径天生ArcGIS数据库点要素类(GDB文件),针对分外情形下不含GPS信息的照片天生非要素表,便于单独处理。
Exif是“可交流图像文件”的缩写,可以记录数码照片的拍摄参数、缩略图及其他属性信息[5]。
详细处理中,通过open函数打开照片,获取照片的getexif属性
照片的Exif属性内容示例:
5.2属性笔墨识别
常日照片中包含单位或门店的名称,同时附带有电话或者地址,为了进一步提高数据库属性字段录入的效率,充分利用近期深度学习算法和中文识别技能的发展造诣,选取了腾讯AI开放平台供应的自然场景的通用笔墨识别功能,以便根据照片内容快速提取和识别属性信息。
主流的笔墨识别(OCR)技能,常日分为笔墨检测与笔墨识别两个模块:通过检测算法定位到文本行,后通过识别算法阅读出文本行内容。地名地址照片的繁芜性包括背景凌乱、艺术字体、多措辞稠浊、字符形变、文本行繁芜版式等等对以谷歌PhotoOCR单字识别算法为代表的传统识别算法提出了巨大的寻衅。
Python措辞的pytesseract模块对HP实验室Tesseract-OCR识别工具进行了封装,利用大略方便,对付只含有数字和英文的店面名称或者电话识别度较高,但对付地名地址照片的繁芜性,难以知足需求,进一步也难以得到足够的演习样本来适应地名地址的繁芜性。
随着深度学习方法逐渐深化到海内OCR领域,包括基于卷积神经网络(CNN)和基于是非期影象(LSTM)的方法等。腾讯云研发出基于LSTM算法的技能路线,进行序列化识别的OCR整行识别技能,可以无须切分单字,直接识别整行字符,战胜了普遍存在的笔墨倾斜、模糊、畸变等技能寻衅。
通过笔墨自动识别,标准笔墨和电话号码能无缺田主动提取,艺术字和错版排列的笔墨识别的准确率有一定的难度,综合判断,该方法进一步提高了内业字段录入的效率。
6、质量掌握
项目质量掌握严格按照ISO9001质量管理体系的哀求运行,成果质量掌握按照二级检讨一级验收的办法进行掌握。
技能设计书评审分为内审和专家评审。技能设计书在完成初稿后,提交部门进行内审,按照见地统一修正后,形成评审稿,提交专家组织评审,经评审、修订后,形成正式稿,如图6所示。
图6技能设计书评审示意图
作业组按照正式稿履行作业操持,并做全过程检讨,外业“扫街”的路线是否全面无遗漏,连拍照片角度是否合理,是否有重叠度,照片笔墨是否清晰可辨,相机开机内置GPS打开静置少焉后定位是否稳定可靠。内业结合最新航拍照像检讨照片GPS的位置是否相对准确。
院质检部门对作业组提交成果做终极检讨,设计书是否按照专家评审见地对应修订,提交成果坐标系统是否精确,数据库属性字段是否符合设计哀求,属性字段填写信息是否精确完全,地名地址分类是否合理,作业组接边是否重复。院质检部门对成果按比例抽样检讨,对内业展点平面位置现场核对,检讨是否有地名地址点名称缺点和遗漏。
针对地名地址采集的情形,宜对以下区域做重点检讨:
(1)对底图利用的图纸或者影像未能覆盖或者未及时更新的区域做重点检讨。
(2)对已建成却未标示地名地址的房屋做重点检讨。
(3)对政府机构或大型"大众年夜众做事组织等做重点检讨。
(4)对不合逻辑的地名地址做重点检讨。
由于地名地址特殊是街边门店存在变更,设置外业采集结束韶光为成果标准时点,并及时提交质检站质检,成果质量管控图如图7所示。
图7成果质量管控图
7、结论
通过2019年度湖州市地名地址更新项目的实践,根据传统采集方法和“扫街”拍照法的比拟,“扫街”拍照法有效降落了外业事情强度,并通过内业的技能手段的改进,提高了数据录入的效率,对往后类似项目的履行具有主要辅导意义。