利用pytesseract库在Python中识别图片中的中文字符
发布时间:2023-12-26 08:30:25
pytesseract是一个用于OCR(Optical Character Recognition,光学字符识别)的Python库。它可以识别图像中的文本,并将其转换为可编辑的文本格式。下面是一个使用pytesseract库识别图片中的中文字符的示例:
首先,确保已经安装了pytesseract库和Tesseract OCR引擎。可以使用以下命令在终端中安装它们:
pip install pytesseract sudo apt update sudo apt install tesseract-ocr
接下来,导入pytesseract库:
import pytesseract from PIL import Image
然后,打开一张包含中文文本的图像,并将其转换为灰度图像以提高识别效果:
image_path = 'path/to/image.jpg'
image = Image.open(image_path).convert('L')
接下来,使用pytesseract库识别图像中的文本:
text = pytesseract.image_to_string(image, lang='chi_sim')
在这个例子中,我们指定了lang='chi_sim',因为我们希望识别中文文本。根据需要,也可以识别其他语言,例如英文(lang='eng')。
最后,将识别的文本输出:
print(text)
完整的示例代码如下:
import pytesseract
from PIL import Image
# 打开图像并转换为灰度图像
image_path = 'path/to/image.jpg'
image = Image.open(image_path).convert('L')
# 使用pytesseract库识别文本
text = pytesseract.image_to_string(image, lang='chi_sim')
# 输出识别的文本
print(text)
有了这个例子,你可以尝试识别包含中文文本的图像。请注意,OCR的识别准确性可能会受到图像质量、字体和文字大小等因素的影响。
