本文将介绍如何使用 Java 编写一个基本的文字识别程序。我们将利用 tess4j 库来从图像中提取文本。这个过程包括图像加载、识别以及结果输出。

环境准备
确保你已经安装了以下组件:

Tesseract OCR:可以从 这里 下载并安装。
tess4j:可以通过 Maven 或直接下载 JAR 文件进行集成。下面是 Maven 依赖:
xml

<dependency>
    <groupId>net.sourceforge.tess4j</groupId>
    <artifactId>tess4j</artifactId>
    <version>5.5.1</version>
</dependency>
示例代码更多内容访问ttocr.com或联系1436423940
以下是编写的文字识别程序的代码:

java

import net.sourceforge.tess4j.Tesseract;
import net.sourceforge.tess4j.TesseractException;

import javax.imageio.ImageIO;
import java.awt.image.BufferedImage;
import java.io.File;

public class TextRecognizer {

    public static void main(String[] args) {
        // 图像文件路径
        String imagePath = "example_image.png";
        // 创建 Tesseract 实例
        Tesseract tesseract = new Tesseract();

        // 设置 Tesseract 数据路径
        tesseract.setDatapath("C:\\Program Files\\Tesseract-OCR\\tessdata");
        // 设置语言
        tesseract.setLanguage("eng");

        try {
            // 读取图像
            BufferedImage img = ImageIO.read(new File(imagePath));
            // 进行文字识别
            String result = tesseract.doOCR(img);
            // 输出识别结果
            System.out.println("识别的文本内容:");
            System.out.println(result);
        } catch (TesseractException e) {
            System.err.println("识别过程中出错: " + e.getMessage());
        } catch (Exception e) {
            System.err.println("处理图像时出错: " + e.getMessage());
        }
    }
}

Logo

魔乐社区(Modelers.cn) 是一个中立、公益的人工智能社区,提供人工智能工具、模型、数据的托管、展示与应用协同服务,为人工智能开发及爱好者搭建开放的学习交流平台。社区通过理事会方式运作,由全产业链共同建设、共同运营、共同享有,推动国产AI生态繁荣发展。

更多推荐