本节内容包含:
DL字符定位是基于深度学习的方法实现的,其主要原理是对标注好的字符区域进行学习,提取其形态、轮廓等低层级信息以及高层级语义信息。相对于人为选择的特征,深度学习方法学习到的特征信息具有更好的表征性,因此可以获得更高的字符定位精度。
基于深度学习的字符定位算法,会给每个定位框输出一个得分,也称为置信度,用于表示该定位框是字符框的可能性大小。该定位框是字符框的可能性越大,则置信度越大;反之,置信度越小。
DL字符定位模块主要用于将图像中感兴趣的字符区域检测出来,通过匹配大致的字符库信息来确定字符的位置。当文本背景复杂或者位置不固定时,通过DL字符定位能够实现精准的字符位置输出。
传统定位算法与深度学习定位算法的适用场景对比如下:
传统字符定位:传统定位算法主要有快速(高精度)特征匹配、Blob分析等。主要用于有固定特征且特征一致性较好,特征与背景对比度高且背景简单的场景。
深度学习字符定位:无固定定位特征,字符形态不止一种,对比度低,背景略带干扰,支持多行、任意角度(0~180°)字符定位。
DL字符定位模块一般搭配DL字符识别模块使用,将字符定位出来后,字符识别模块检测区域继承定位的ROI完成字符的识别。
DL字符定位模块对字符在图像的占比有要求,建议字符高度不小于图像长边的2%。若不满足要求,建议先初定位对图像进行裁剪。裁剪需要用到匹配(模版匹配、Blob分析)、定位修正、仿射变换等模块。
此处会提供默认模型,也可以自行加载训练好的模型文件。
使能后,将模型数据保存到方案文件或流程文件中,跨机加载方案时无需再次输入模型文件路径。
即最大查找的字符框个数。若实际检测出的字符框数量M小于最大查找个数N,则实际显示M个字符框;若实际检测出的字符框数量大于N,则实际只能显示N个字符框。
图像内所有像素的最小置信度,低于该参数值的像素会被过滤,高于该参数值的像素区域会被计算成包围字符框。
若包围字符框内所有像素的平均置信度小于该参数值,则不返回该字符定位结果;可根据实际需求进行设置,默认值为0.3。
字符框允许被遮挡的最大比例。当实际重叠率超过该参数值时,则不定位该字符。一般来说,该参数无需调整。
可选按中心点X坐标排序、按中心点Y坐标排序、按置信度排序。
按中心点X/Y坐标排序:按照目标中心X/Y坐标从小到大对结果信息进行排序。
按置信度排序:按照目标置信度从大到小对结果信息进行排序。
使能后,需设置最小边缘分数。若查找目标在边缘内的部分占整体的比例小于最小边缘分数,则舍去该查找目标。
默认关闭状态,使能后需配置字符角度范围,只会保留角度符合设置范围的字符框。
默认关闭状态,使能后需配置字符宽度范围,只会保留宽度符合设置范围的字符框。
默认关闭状态,使能后需配置字符高度范围,只会保留高度符合设置范围的字符框。
该模块的模块结果介绍请见DL字符定位。