Python中基于pytesseract的中文图片文字识别的示例代码
发布时间:2023-12-26 08:32:55
以下是一个基于pytesseract的中文图片文字识别的示例代码:
import pytesseract
from PIL import Image
# 设置tesseract.exe的路径(根据实际安装位置进行修改)
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files\Tesseract-OCR\tesseract.exe'
# 打开并读取图片文件
image = Image.open('test.png')
image = image.convert('L') # 转为灰度图像,提高识别准确率
# 调用pytesseract进行文字识别
text = pytesseract.image_to_string(image, lang='chi_sim')
# 输出识别结果
print(text)
在上述代码中,首先需要设置pytesseract的执行路径,该路径根据你的实际安装位置进行修改。然后,通过Image.open方法打开图片文件,并将其转为灰度图像以提高识别准确率。最后,调用pytesseract.image_to_string方法进行文字识别,将识别结果保存在text变量中,并输出结果。
使用例子:
假设我们有一张名为test.png的图片文件,其中包含一段中文文字。运行上述示例代码后,将得到图片中的文字识别结果,并输出到控制台上。
注意:在运行之前,需要先安装pytesseract库以及Tesseract OCR引擎。可以使用pip install pytesseract命令进行安装,但是请确保你已经正确安装了Tesseract OCR引擎。
