表格区域检测是指从文档中定位出表格区域。
早期研究中,表格区域检测多运用在电子文档中,比如PDF文档、Word文档等。
随着图像采集技能的发展,表格区域检测更多运用在自然场景中,比如手持拍照等扫描件。

基于传统的区域检测算法

与海内比较,国外的表格检测技能起步较早,早期方法可分为基于规则启示式算法和大略的机器学习算法。
基于传统的区域检测算法首先利用图像处理方法对文档进行预处理,然后利用表格布局特色或者PDF编码信息得到线条、文本块等视觉信息,末了定位出表格区域。

Watanabe、Hirayama 等人首先对文档图片进行预处理,利用形态学方法获取文本块等信息,然后利用文本块、水平线和垂直线来定位出表格区域。
Ramel等人利用线条信息来定位出表格区域,首先探求表格区域顶部的第1条水平线,然后通过匹配9种框线相交情形中的4种“T”字形模板来检测其他线条。
Kieninger、Dengel等人指出线条不能作为表格的必备特色,认为表格列之间具有不相交的特性,可以利用列与列之间的空缺信息定位出表格区域。

技能分享  基于深度进修的表格区域监测技能

表格检测技能在海内起步较晚,早期的研究紧张是办理PDF文件中的表格定位问题。
最有代表性的是Fang等人提出的基于表格线条特色及页面分隔符的方法。
该方法首先会对PDF文件进行协议码解析以获取页面的线条信息,然后会利用规则方法对页面布局进行剖析,获取页面分隔符,末了会基于线条信息,利用形态学方法定位出表格区域。
该方法仅适用于有线表格区域检测。
利用线条检测表格区域的流程如图1所示。

图1 基于线条的区域检测算法流程

基于深度学习的区域检测算法

随着人工智能技能的飞速发展,深度学习在图像的语义分割、目标检测等任务上取得了精良表现。
越来越多的研究学者将语义分割或目标检测技能运用到表格区域检测任务上。

01基于目标检测的算法

Schreiber 等人利用Faster R-CNN 算法模型来检测表格区域。
Gilani等人在采取相同的目标检测网络的同时,还利用了3种间隔变换方法对页面的图像特色进行增强。
经由微调后的模型不受表格构造和布局变革的影响,并且适用于更多的数据集进行目标检测。

Huang 等人利用YOLOv3网络来检测表格区域,对算法中的锚点进行了适应性调度, 并在后续处理中过滤了检测框的空缺区域,以减少噪声对表格区域定位的影响,进而提高了表格区域检测的准确率。

Sun 等人采取无锚点的目标检测算法来检测表格区域,该算法基于CornerNet的思想定位出表格的4个角点位置,并且利用角点对扭曲表格进行纠正,以提高后续表格构造识别的准确率。

02基于语义分割的算法

He 等人采取多尺度特色,利用FCN(fully convolutional network)定位出文档中的表格、段落及图像区域,然后通过形态学、CRF等得到表格区域。

03基于图网络的算法

Zhang 等人提出了VSR(vision, semantics and relation)模型。
该模型领悟了视觉和语意信息,以图像及文本信息作为输入,利用双流网络提取出视觉和语意特色,然后将特色送入多尺度自适应的聚合模块中,末了利用GNN模块对视觉及语义特色的关系进行建模,最终生成结果。