欢迎访问宙启技术站
智能推送

利用pytesseract库在Python中识别图片中的中文字符

发布时间:2023-12-26 08:30:25

pytesseract是一个用于OCR(Optical Character Recognition,光学字符识别)的Python库。它可以识别图像中的文本,并将其转换为可编辑的文本格式。下面是一个使用pytesseract库识别图片中的中文字符的示例:

首先,确保已经安装了pytesseract库和Tesseract OCR引擎。可以使用以下命令在终端中安装它们:

pip install pytesseract
sudo apt update
sudo apt install tesseract-ocr

接下来,导入pytesseract库:

import pytesseract
from PIL import Image

然后,打开一张包含中文文本的图像,并将其转换为灰度图像以提高识别效果:

image_path = 'path/to/image.jpg'
image = Image.open(image_path).convert('L')

接下来,使用pytesseract库识别图像中的文本:

text = pytesseract.image_to_string(image, lang='chi_sim')

在这个例子中,我们指定了lang='chi_sim',因为我们希望识别中文文本。根据需要,也可以识别其他语言,例如英文(lang='eng')。

最后,将识别的文本输出:

print(text)

完整的示例代码如下:

import pytesseract
from PIL import Image

# 打开图像并转换为灰度图像
image_path = 'path/to/image.jpg'
image = Image.open(image_path).convert('L')

# 使用pytesseract库识别文本
text = pytesseract.image_to_string(image, lang='chi_sim')

# 输出识别的文本
print(text)

有了这个例子,你可以尝试识别包含中文文本的图像。请注意,OCR的识别准确性可能会受到图像质量、字体和文字大小等因素的影响。