求助帖：营业执照内容识别

資深大佬 : Visitor233 3

RT，最近整的项目要识别上传的营业执照图片，并获名称和信用代码这些信息。git 上没搜到= =(或许姿势不对)。我对这块不了解，希望有经验的大佬留言指点下，谢谢。

大佬有話說 (24)

資深大佬 : shequ2046

也求一下其他证件的识别代码。。。
資深大佬 : xinghen57

图片处理加 ocr，这个思路试试吧
資深大佬 : jdhao

先用 ocr 识别文字和具体位置，然后做处理，提取你想要的内容
資深大佬 : Blulotus

百度 api 每天有两百次免费额度
資深大佬 : renmu123

应该和发票识别挺像的
資深大佬 : twor2

营业执照上有二维码，直接解析二维码上的网页内容如何？
主資深大佬 : Visitor233

@xinghen57
@jdhao 么我也想试试自己写代码，少用第三方，这等提升自我的机会放弃了，可惜。
@Blulotus 每天 200 次免费就很 nice，谢谢
資深大佬 : brendanliu

百度 AI 文字识别-营业执照识别欢迎你 https://ai.baidu.com/tech/ocr_cards/business
需要优惠可联系我
資深大佬 : jdhao

@Visitor233 你调用 ocr 识别 api 就行了，自己开发文字识别工作量巨大。或者像 8 那样，直接调用识别证件的接口，一步到位，看你自己的需求。
資深大佬 : xinghen57

@Visitor233 github 上找图片处理类软件的项目，或者天若 ocr，这个是有源码。
天若 OCR 的思路是先处理，得到符合百度 OCR API 要求的图片再上传识别。
之前百度文字 OCR 的 API，每天是上万次的免费，一般小企业够用的。
不先以处理，会影响 OCR 识别效果。
資深大佬 : xinghen57

不过有个问题，无论自己开发还是调用现场执照识别 API，准确率都没法 100%
資深大佬 : wwwwzf

https://v.ziti163.com/Font/webfont
这有 ocr 识别，点上面菜单进，你看看
資深大佬 : chinvo

@twor2 #6 系统改过好几次，有很多营业执照上的二维码已经是无效链接甚至域名都没了
主資深大佬 : Visitor233

@brendanliu
@xinghen57 刚试了百度的 OCR，图片里的 J 字母识别成了数字 1，这就很尴尬了
資深大佬 : brendanliu

@Visitor233 目前无法做到 100%精准识别 badcase 可以在工单里反馈工程师会对模型做相应的优化
資深大佬 : qiayue

@Visitor233 肉眼可能出错的，程序识别也会出错
資深大佬 : xinghen57

@Visitor233 你还是用现成的营业执照 OCR API 吧。
J 识别错，正则替换或其他方式，比如分割处理下后再识别。
另外看看文档，可能可以添加英文识别。
我没接触太多，感觉几个技术点，一个在图片前期的处理，一个是 OCR 识别（准确率、排版以及准确度低的处理）
天若对 OCR 的排版做的一般，对准确度处理根本没做。
接触过的文字识别类软件，比如百度 OCR API （免费的文字识别）、白描、熊猫啥啥的、acrobat，都很少对识别准确率低文字的处理流程。
这块超出你能力太多了。
你要有想法，慢慢补没问题，直接拿出来用不是明智的选择。
上面的都搞定了，完全可以开发个 app 自己用，嗯我我就是这么长远规划的。
另外 OCR 好像有本地识别模型可以深度学习，又涉及神经网络了。
技术有天花板，即便识别率 99.99%，剩下的 0.001%，需要其他非技术解决。
慎满腔热血扎进去，后头土脸走出来。
資深大佬 : xinghen57

有些东西可以自己积累。
我之前识别，遇到“一 yi”，识别出来后会有“-_—～”这几个，直接正则替换就解决了。
这虽说是优化，但只是笨办法而已。
資深大佬 : yishengyongyi

用腾讯或者阿狸的，要求识别率高的话就属于人工智能范畴了，自己开发大概率比不过腾讯和阿狸
資深大佬 : wongchance

百度 Ai iOCR 自定义模板文字识别
https://ai.baidu.com/tech/iocr

百度 Ai 营业执照识别
https://ai.baidu.com/ai-doc/OCR/fk3h7xune#%E8%90%A5%E4%B8%9A%E6%89%A7%E7%85%A7%E8%AF%86%E5%88%AB
資深大佬 : dorothyREN

免费接口就行
資深大佬 : evonotevil

Mac 扫描王
資深大佬 : ztechstack

@Visitor233 可以试一下高精度，之前识别医疗单据低精度 GG，高精度很满意。而且感觉整图全文识别和切割后再识别精度也不一样。
資深大佬 : Gathaly

v2 真的变了，全部都调包侠….