Python中基于pytesseract的中文图片文字识别的示例代码

发布时间：2023-12-26 08:32:55

以下是一个基于pytesseract的中文图片文字识别的示例代码：

import pytesseract
from PIL import Image

# 设置tesseract.exe的路径（根据实际安装位置进行修改）
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'

# 打开并读取图片文件
image = Image.open('test.png')
image = image.convert('L')  # 转为灰度图像，提高识别准确率

# 调用pytesseract进行文字识别
text = pytesseract.image_to_string(image, lang='chi_sim')

# 输出识别结果
print(text)

在上述代码中，首先需要设置pytesseract的执行路径，该路径根据你的实际安装位置进行修改。然后，通过Image.open方法打开图片文件，并将其转为灰度图像以提高识别准确率。最后，调用pytesseract.image_to_string方法进行文字识别，将识别结果保存在text变量中，并输出结果。

使用例子：

假设我们有一张名为test.png的图片文件，其中包含一段中文文字。运行上述示例代码后，将得到图片中的文字识别结果，并输出到控制台上。

注意：在运行之前，需要先安装pytesseract库以及Tesseract OCR引擎。可以使用pip install pytesseract命令进行安装，但是请确保你已经正确安装了Tesseract OCR引擎。