参考https://www.jianshu.com/p/4c15bdda55d9

1. 去github下载whl文件

按照官方文档https://github.com/sirfz/tesserocr的描述,我们可以在github中下载whl文件
在这里插入图片描述点入链接,下载对应自己python和电脑版本的whl文件。如我的是3.6+64位。注意右上角tesseract的版本号,一会儿要用到。
在这里插入图片描述
下载完毕后,直接在该目录下pip安装whl即可。
在这里插入图片描述
这里提供一个验证码,供测试用https://img-blog.csdnimg.cn/20201008111402909.jpg

在这里插入图片描述运行官方文档示例,会发现报错

import tesserocr
from PIL import Image

print(tesserocr.tesseract_version())  # print tesseract-ocr version
print(tesserocr.get_languages())  # prints tessdata path and list of available languages

image = Image.open('20201008111402909.jpg')
print(tesserocr.image_to_text(image))  # print ocr text from image
# or
print(tesserocr.file_to_text('20201008111402909.jpg'))

output >> RuntimeError: Failed to init API, possibly an invalid tessdata path: d:\python\python36\/tessdata/

在这里插入图片描述
这是因为我们缺少相关的语言素材包,这时候就需要安装tessersct了。

2. 安装tessersct

下载地址为https://digi.bib.uni-mannheim.de/tesseract/。其中dev为开发版本,alpha, beta为测试版本,因此最好选择不带有这两个字眼的稳定版本。
记得一定要选择合适系统的版本,区分32位和64位

在这里插入图片描述

根据下载时选择的whl版本所对应的tesseract版本号,下载对应的版本

在这里插入图片描述

安装的时候选择Additional language data(download),这样就会下载tessdata文件,里面包含了全部的语言包。
在这里插入图片描述
在安装目录下把语言包复制到python的安装路径中
在这里插入图片描述接下来运行代码,就不会报错了。

官方https://github.com/tesseract-ocr还提供了很多的语言包供我们选择,如tessdata_best, tessdata_fast,tessdata,都是可以在仓库中找到的。

  • https://github.com/tesseract-ocr/tessdata_best
  • https://github.com/tesseract-ocr/tessdata_fast
  • https://github.com/tesseract-ocr/tessdata
Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐