(1)安装过程

(2)安装中文字库

(3)安装过程出现的错误

安装后执行程序时出现了以下错误:

1078885-20200401235453878-1777087952.png

这个错误是找不到tesseract.exe造成的,但是我又在pytesseract.py中添加了路径,最终发现是由于下面的原因造成的:

1078885-20200401235740771-874091975.png

(4)测试

参考别的博客,写了几行简单的测试代码,代码如下:

1 #encoding: utf-8

2

3 importpytesseract4 from PIL importImage5 importos6

7

8 if __name__ == "__main__":9 print(os.getcwd())10 im_ch = Image.open('test.png')11

12 print('========识别中文========')13 print(pytesseract.image_to_string(im_ch, lang='chi_sim'))

测试的图片和结果如下:

1078885-20200402000211778-482279930.png

1078885-20200402000234560-813864983.png

可以看到,测试的图片不是分清晰,测试也出现了很多错别字。

(5)改进

效果如下:

1078885-20200402002642307-931182603.png

1078885-20200402002715110-1276012531.png

可以看到,效果已经非常不错了。

至此,这篇博客就写到这里为止了,其实我是突然想弄一个这个,因为在网上找的在线图片识别都是要收费的,我就想为何不自己写一个,就在网上找了几篇博客看。网友的力量真是强大,再次感谢以上博客的网友。

附录:

可以去开通一个,每天的免费额度还是够个人使用了。

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐