跳至主要內容
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?

4563博客

全新的繁體中文 WordPress 網站
  • 首頁
  • 有没有反 OCR 的轮子?
未分類
13 3 月 2020

有没有反 OCR 的轮子?

有没有反 OCR 的轮子?

資深大佬 : yohanechan 76

社交软件会 OCR 用户上传的图片,检测图片中的文字,发现敏感词将会拦截。
是否可以用验证码的思路,在图片中加入噪点、干扰元素、扭曲字体,使机器难以识别,但人类仍然能认出其中的文字。
大佬有話說 (42)

  • 資深大佬 : jugelizi

    研表究明,汉字序顺并不定一影阅响读

  • 資深大佬 : xml123

    那不还是验证码的技术吗

  • 資深大佬 : WeaPoon

    @jugelizi #1 第一个序顺是真没注意,第二个定一就感觉不对劲了,哈哈

  • 資深大佬 : moshou

    @WeaPoon 你忽略了 研表究明

  • 資深大佬 : q8515620

    @moshou 你忽略了 影阅响读

  • 資深大佬 : jdhao

    ocr 只是把文字位置检测出来,然后识别文字,对于规则排布的文本估计也可能提取意思。知道这个原理,你就能做出反 ocr 程序,一个思路,你把汉字排布弄乱一点,不要简单横排或者竖排(譬如波浪形状,或者更加复杂的形状),另外再加一些北京噪声,图片模糊效果,就可以防住很多 ocr 了。

  • 資深大佬 : Co1a

    Leetcode 猪年那道题算是最简单的加密吧……

  • 資深大佬 : OceanSea

    将汉字在图片上随机排布、然后用一条线连起来表明阅读顺序

  • 資深大佬 : yinanc

    众所周知,验证码就是用来反 ocr 的

  • 資深大佬 : kknd22

    方正启功字体+缩小行间距,有奇效

  • 資深大佬 : kknd22

    类似 6 的字,字体不加修改,行距改为 0.5,效果如下:

    OCr 只是把又子位置检测出米,然后识别又子,对十郑则排币的又他订也可能疾取息思。知追这个尿性,你就能倾出 oCr 样序,一个思语,你把义子“排作弄机一点,个妥简单使排首竖排(管如波浪形状,者更川复杂的形状),另外再加一些北只栗户,图片模糊双果,就可以防任很多 Qr 了。

  • 資深大佬 : kknd22

    肉眼识别有略微障碍,但基本不影响阅读
    这就是好多网上防爬取小说的思路,当然,他还得增加文字转截图

  • 資深大佬 : shilyx

    base64
    或者自制码表的 base64

  • 主 資深大佬 : yohanechan

    @jugelizi 哈哈,这也是个办法,但汉字最多移动 2~3 格,动多了就难读了

  • 主 資深大佬 : yohanechan

    @kknd22 这只是替换为外形相似的文字,实现起来还得有庞大的数据库支持

  • 資深大佬 : panda1001

    用过 abbyy 的一些 ocr 就有经验了,比如单个文字在◇符号中间,就是文字的边缘加上干扰,虽然没有亲测 tx 的在线 ocr,但也提供这个思路

  • 資深大佬 : superrichman

    使用小众点的字体再加干扰线应该可以。

    另外,我记得有那种要从某个比较低的角度看才能看出文字的图。原理就是把文字垂直拉伸的很长,这种变形的厉害的文字应该也不会被识别。

  • 主 資深大佬 : yohanechan

    谢谢大家的帮助,我找到了基本符合需求的产品 https://github.com/yuzu233/anti-ocr

  • 資深大佬 : Buges

    这边建议直接用 GPG 呢

  • 資深大佬 : kknd22

    @yohanechan
    卧槽,这个效果真狠啊。。。

  • 資深大佬 : suotm

    加干扰线或者颠倒文字方向

  • 資深大佬 : autogen

    你需要的是,全自动区分计算机和人类的图灵测试。。。。
    有以下方式:
    填空:1 + 2 = __
    —-
    填空:我们的名称是___
    —-
    填空:出门要__口罩
    —-
    选择题:勾选以下图片中所有的啤酒
    —-
    操作题:把斜的图片旋转正
    —-
    操作题:拖动滑块完成验证

  • 資深大佬 : vocaloid

    @yohanechan #18 他这个测试网站似乎无法打开

  • 資深大佬 : gladuo

    @yohanechan 划线确实 nb

  • 資深大佬 : jdhao

    @vocaloid 同无法打开

  • 資深大佬 : jdhao

    @yohanechan 他这个似乎只是把已有的图片干扰,如果你想传递文字信息,还是不行

  • 主 資深大佬 : yohanechan

    @autogen 猫坐在毯子上,因为它很温暖。____很温暖?

  • 主 資深大佬 : yohanechan

    @vocaloid
    @jdhao 可以 clone 到本地测试,他是输入文字输出图片

  • 資深大佬 : tabris17

    有个办法可以躲过通用 OCR 程序。

    原理就是利用 GIF 动态图片,两帧来回闪现,把每个字各切一半放在不同的两帧里

    如果是针对性的 OCR 就没办法了

  • 資深大佬 : wpblank

    类这子话以?
    似样说可吗

  • 資深大佬 : akira

    人肉 ocr

  • 資深大佬 : tfdetang

    @yohanechan 其实理论上划线并不能规避把。我们训练 ocr 识别模型的时候都会加入干扰线样本进行对抗

  • 資深大佬 : WeaPoon

    @moshou #4 哈哈 还真是…

  • 資深大佬 : zlowly

    根据以往项目的经验(使用用 ABBYY 对含表格的扫描打印件进行 OCR),表格中的文字 ocr 识别率是大幅下降的,即使是表格附近的文字也有影响。所以可以尝试叠加一层表格上去试试看,对人眼应该影响不大的,但 ocr 出来肯定就是极多错别字。

  • 資深大佬 : emeab

    近义字 异体字 或者单纯外号. 甚至外号的异体字和近义字 都可以吧

  • 資深大佬 : dengyutongcn

    抽

  • 資深大佬 : xuanbg

    火星文了解下,吱口令就是火星文的实际运用

  • 資深大佬 : zhihupron

    我似乎知道主的意图了
    你是 qq 贴吧小广告的

  • 資深大佬 : keventseng

    研表究明,汉字的序顺并不定一能影阅响读,比如当你完看这话句后,才发这现里的字全是都乱的…

  • 資深大佬 : q409640976

    这 1 样 1 可 1 以 2 不

  • 資深大佬 : pythonee

    @q409640976 好主意,另外凯撒加密也是种办法吧

  • 資深大佬 : charlie21

    有点儿意思

文章導覽

上一篇文章
下一篇文章

AD

其他操作

  • 登入
  • 訂閱網站內容的資訊提供
  • 訂閱留言的資訊提供
  • WordPress.org 台灣繁體中文

51la

4563博客

全新的繁體中文 WordPress 網站
返回頂端
本站採用 WordPress 建置 | 佈景主題採用 GretaThemes 所設計的 Memory
4563博客
  • Hostloc 空間訪問刷分
  • 售賣場
  • 廣告位
  • 賣站?
在這裡新增小工具