Python中使用pytesseract进行中文OCR文字识别的示例代码
发布时间:2023-12-26 08:31:33
以下是使用pytesseract进行中文OCR文字识别的示例代码:
import pytesseract
from PIL import Image
# 设置tesseract的路径(根据你自己的安装路径进行修改)
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
# 读取中文图片
image = Image.open('chinese_image.png')
# 将中文图片转为中文文本
text = pytesseract.image_to_string(image, lang='chi_sim')
# 输出识别结果
print(text)
使用例子:
假设我们有一张名为chinese_image.png的图片,其中包含一段中文文字。我们可以使用上述代码来将中文图片转为中文文本:
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files/Tesseract-OCR/tesseract.exe'
# 读取图片
image = Image.open('chinese_image.png')
# 将图片转为文本
text = pytesseract.image_to_string(image, lang='chi_sim')
# 输出识别结果
print(text)
注意:在运行代码之前,你需要先安装Tesseract OCR和pytesseract库。
