Tesseract-OCR 字体包训练问题求教
資深大佬 : Kvip 17
这阵子在做 Tesseract-OCR 的字体训练,其中遇到了几个问题,使我很烦恼,特意来求教各大佬
1 、 在将图像生成对应的 .box 文件后,使用 jTessBoxEditorFx 软件进行校正时,发现字体虽然大部分都能识别出来,但是每个字的位置却出现了很严重的偏差,如下图,需要逐个字体进行校正位置坐标才行(如下图一),不知道这是什么原因引起的。(每个字都需要进行位置校正,工程量太大了)

2 、 字体训练后,单独使用我训练过的字体包来识别图像,只能识别出那些我有训练过的文字,如果图像出现了我没训练过的文字,这些文字就会胡乱显示为我训练过的文字,如下图(这问题我还能理解)

3 、如果在识别时,设置语言包 lang 的参数为 我训练过的字体包 + 通用中文简体包 chi_sim,识别出来的文字则和单独使用通用中文简体包 chi_sim效果一致,也就是说我训练的字完全不起作用。如下图 
我预期的结果:我训练的字体包和官方的字体包可以在一起使用(毕竟自己不可能每个字都训练到,这还是得靠官方支持)。各位大佬何以教我
大佬有話說 (3)