天若OCR 5.0那个最火的OCR工具我给你弄来了开源免费版
OCR 识别文字这个大家不陌生吧。
别说工作上可能会用得到,就说生活里会碰到那种动不动就甩过来一张图,让你复制编辑一下的情况。
这不得抓耳挠腮,心里偷偷骂句 mmp。
之前有小伙伴问我哪个 OCR 工具好用,手机上完全可以用微信的提取文字凑合一下。
但我觉得更多的场景是电脑上用得上,所以我来分享一下我用了一年多的 OCR 识别工具,天若 OCR 5.0 开源版。
天若OCR
天若 OCR 是 2018 年的时候,吾爱破解上的大佬「天若幽心」利用大厂接口搞出来的工具,还开源了出来。
大体上就是利用开源的截图工具,配上大厂的接口,写了个图形界面,赋予了该有的逻辑搞定的。
某种意义上说,这是个超级缝合怪。
敲黑板,这里的缝合怪可不带任何贬义啊。
OCR 文本识别这种需要依靠大量的数据来提高准确率的技术,你让个人从 0 实现那不开玩笑嘛。
先不说什么重复不重复造轮子的事,没团队,没资源的凭一腔热血搞出来的 OCR 工具,真不会比大厂出品的工具强。
现在个人开发者搞出来的 OCR 工具,和之前说的那些翻译工具一样,都是接口怪。
说到接口,这种开源工具提供的公用接口虽然能用,但指不定什么时候会出岔子。
而商用的接口又需要钱,所以很多工具都从最开始的免费变成了会员制。
但个人而言,5 分钟申请一个免费的个人接口白嫖岂不更香,天若 OCR 就提供有填写个人接口的地方。
但后来天若 OCR 从 4.49 版开始不再开源,现有的免费版天若 OCR 已经拒绝填写自己的接口了。
而我用的那个天若 OCR 5.0 开源版,是另一位作者 AnyListen 对最后一版开源的天若 OCR 简单重构后造出的绝唱。
当然提供填写个人接口这个功能一直没变。
虽然现在作者停止了维护,但我用的这一年多,倒没出过什么差错,所以来分享给大家。
轻量且细节
为啥会选用天若 OCR 5.0 开源版,除了上面提到的接口问题,最重要的是它足够轻量。
无需安装,总共不到 5M 的小东西,打开以后会乖巧的待在后台。
当你在电脑上(全局),只要 F4 唤出截图框,框选住你待选的文字,松开即自动识别了。
所以无论是文本文字,还是图片文字,对于天若来说是没有区别的。
文本:
图片:
这是什么,这不就是妥妥的活好不粘人嘛。
至于识别速度,得看提供的截图质量和文字多少了,你看上面的两次识别,都没超 1s 的。
如果你觉得「F4」翻天若牌子不顺手或者和其他工具有冲突,完全可以在设置(右下角右键图标)里更改。
不过便捷、轻量只是我发现天若以后的第一感觉,但真正留住我的还是细节。
我随手实拍了个书上的内容,来看看天若的表现:
还有手写文字的识别,一点毛病都没有:
不过这并不能说是天若多厉害,而是大厂接口很给力。
天若 OCR 支持搜狗、腾讯、有道、百度四个接口,不过腾讯的接口失效了,百度的接口我用的是自己申请的。
说说实测感:
搜狗的 OCR 准确度更高,有道的 OCR 速度更快,百度则有点中规中矩的感觉,但用起来比较稳定和丝滑。
而天若的细节突出表现在它识别后的文本处理,比如可以合并句子,整体翻译:
当然也能反过来按行拆分段落,别的什么字体、加粗、更改字体颜色、查找替换这些小功能一个不差。
甚至还有朗读功能,但这个会有明显的延迟,我几乎没用过。
我重新下载了一遍天若 OCR,发现现在百度的接口好像也失效了,所以下面说说怎么申请自己的百度接口。
申请接口
同样打开设置,在「密钥」栏点开接口申请,输入自己的百度账号即可:
然后在「人工智能」找到「OCR 文字识别」里的「通用场景文字识别」。
当然你也可能碰到的是这个:
反正流程不变,选择「创建应用」。
然后「应用名称」和「应用描述」都随便填,记得「应用归属」选个人。
最后立即创建,从「应用列表」把 API Key 和 Secret Key 记录下来。
回到天若设置里把账号、密码给粘贴一下就好了。
建议大家都去弄个实名认证,这种白嫖更多使用次数的认证,多香啊!
这里再多提两嘴,如果你不满足于微信的提取文字,可以试试小程序「微软 AI 识图」,手写识别的效果也很喜人,不过一周只能白嫖 3 次。
偶尔一样的小伙伴可以安排上。
如果你想用离线本地版的 OCR 工具,我建议考虑一下汉王 OCR,不过都是特殊版本,我就不多说了。
大家自己搜一下就能找到。
前面不是说,识别的成功率和速度与图片质量有关嘛,图片扭来扭去的或者光线阴影啥的,有个个人开发的工具可以搞定这个问题。
图片漂白
相信大家都碰到过这种手机拍出来的图吧:
万恶的阴影会很大程度上影响到 OCR 工具的识别,有时候肉眼都看不清。
可千万别说用啥补光灯,或者上扫描仪之类的的操作。
咱倒是想,但总不能真的就这么怼上去吧。
不过话说回来,要是真怼上去想想还挺刺激的。
真哪天我这么怼同事或者领导了,我再给大家分享一篇《职场作死是怎样炼成》的文章。
所以面对这种图片该咋办?
当然是往设备上糊 84 物理漂白借助科技的力量,比如我常用的 PictureCleaner。
从它默认的界面你应该可以看出来了,三种漂白算法,支持实时预览,支持图片校正,还可以手动设置更多参数。
使用流程就是从左侧选择图片(找不到的话去「文件」里更改输入目录),然后自己调整一下角度或裁剪一下,最后执行,搞定。
前面那张图是这样的:
换了个有弧度的是这样的:
我还从网上找到这样一个申请表,漂白过后效果也很 nice:
没啥好介绍的了,看着界面挺复杂,其实用起来超简单。
说说它的不足吧,我用到现在有两点不足:
一个是图片弧度大的话,四角检测会导致应用卡死。
另一个则是漂白过后的图片还是有色差,前面那几张阴影过分的图你就能看出来了。
不过再配上 OCR 就 ok 多了。
你看,是不是很棒。
总结
说实话,我有段时间没了解过 OCR 工具了,因为对我而言 OCR 工具并非刚需。
要不是那个小伙伴问我用什么 OCR 工具,我也没想着把自己过去用过的这些工具给集结起来攒一篇文章。
所以我一直觉得搞公众号不仅是在和大家分享我的发现,更是一个共同成长的过程。
就像前面那个 DeepL,要不是小伙伴安利,我也不会收获一个新的宝藏。
在这次写天若的过程中,我还发现了不少「强大」的 OCR 工具,比如 GitHub 上的 PandaOCR。
说它强大,是因为它现在几乎支持市面上所有的 OCR 识别接口,足足有 20 多个。
那为啥这次没有安利给大家,绝对不是我想吃独食哈。
而是我自己刚入手用了两天,我想着等自己把它的优劣全都搞明白了再和大家分享。
反过来说,接口多也不一定意味着是十全十美的好事,最少从使用上来说麻烦了一个量级。
如果你和我一样需求有限,天若 OCR + 微软 AI 识图 + PictureCleaner 已经能很好的满足需求了。
好了,这一篇到这里就结束了,我们有缘下一篇再见咯。