如何用Python提取图片文字 | PIL识别图片文字教程

要使用 Python 识别图片中的文字,推荐使用 Pillow (PIL) 配合 Tesseract OCR 引擎(通过 pytesseract 库),以下是详细步骤:

pil识别图片文字


步骤 1:安装依赖

  1. 安装 Tesseract OCR(核心引擎):

    • Windows:下载安装包 UB-Mannheim/tesseract
    • MacOSbrew install tesseract
    • Linux (Debian/Ubuntu)sudo apt install tesseract-ocr
    • 语言包(如需要中文):
      sudo apt install tesseract-ocr-chi-sim(简体中文)
      sudo apt install tesseract-ocr-chi-tra(繁体中文)
  2. 安装 Python 库

    pip install pillow pytesseract

步骤 2:Python 示例代码

from PIL import Image
import pytesseract
# 设置 Tesseract 路径(Windows 需要指定安装路径)
# pytesseract.pytesseract.tesseract_cmd = r'C:Program FilesTesseract-OCRtesseract.exe'
# 打开图片
image = Image.open('your_image.jpg')  # 替换为你的图片路径
# 识别文字(默认英文)
text = pytesseract.image_to_string(image)
# 识别中文(简体)
# text = pytesseract.image_to_string(image, lang='chi_sim')
print("识别结果:")
print(text)

常见问题解决

  1. 中文识别不准确

    pil识别图片文字

    • 确保安装了中文语言包(如 tesseract-ocr-chi-sim)。
    • 使用 lang='chi_sim' 参数。
    • 优化图片质量(清晰、无反光、正对拍摄)。
  2. 报错 tesseract is not installed

    • 检查 tesseract 是否在系统路径中。
    • Windows 需手动设置路径(取消注释代码中的 tesseract_cmd)。
  3. 提高识别精度

    • 预处理图片:转为灰度、二值化、降噪。
    • 调整图片:使用图像处理库(如 OpenCV)增强对比度。
    • 指定区域识别:通过 image.crop((x, y, width, height)) 裁剪局部区域。

预处理增强示例

from PIL import Image, ImageFilter
# 打开图片并预处理
image = Image.open('your_image.jpg')
image = image.convert('L')  # 转为灰度
image = image.filter(ImageFilter.SHARPEN)  # 锐化
image = image.point(lambda x: 0 if x < 140 else 255)  # 二值化
# 识别文字
text = pytesseract.image_to_string(image, lang='chi_sim')
print(text)

替代方案:第三方 API

如果本地识别效果不佳,可使用在线 OCR API:

pil识别图片文字

  1. 百度 OCR:高精度中文识别(有免费额度)
  2. Google Vision:英文识别效果好
  3. 腾讯 OCR:支持多语言

提示:在线 API 需处理网络请求和隐私问题。

图片来源于AI模型,如侵权请联系管理员。作者:酷小编,如若转载,请注明出处:https://www.kufanyun.com/ask/294241.html

(0)
上一篇 2026年2月12日 15:20
下一篇 2026年2月12日 15:26

相关推荐

  • Python如何实现CPU负载均衡?探讨高效的多核CPU利用策略

    在当今高速发展的互联网时代,高效稳定的系统运行对于企业来说至关重要,Python作为一种广泛应用于后端开发的编程语言,其性能的优化和负载均衡成为了开发者和运维人员关注的焦点,本文将探讨Python在CPU负载均衡方面的应用,以及如何通过合理配置和优化来提升系统性能,Python与CPU负载均衡概述1 什么是CP……

    2025年12月22日
    01910
  • PS3无线无法与服务器通信?网络设置与硬件故障排查解决方法

    PS3无线无法与服务器通信的解决指南PS3作为经典游戏主机,无线连接功能是其重要特性之一,若出现“无法与服务器通信”的提示,可能影响在线游戏、媒体流媒体等功能的正常使用,本文将从常见原因、解决步骤、预防措施等方面展开,帮助用户快速排查并解决该问题,常见原因分析PS3无线无法连接服务器,通常由以下因素导致:网络配……

    2025年12月28日
    02000
  • 福建租用服务器机箱和虚拟主机到底有何区别?

    在数字浪潮席卷全球的今天,福建作为中国东南沿海的经济重镇,其数字经济发展尤为迅猛,从泉州的跨境电商到厦门的软件信息产业,无数企业与个人开发者都在寻求稳定、高效的网络基础设施支持,在这一背景下,“福建服务器机箱虚拟主机”这一概念,便成为了构建线上业务的关键基石,它不仅关乎一个网站的访问速度,更深刻地影响着用户体验……

    2025年10月13日
    01910
    • 服务器间歇性无响应是什么原因?如何排查解决?

      根源分析、排查逻辑与解决方案服务器间歇性无响应是IT运维中常见的复杂问题,指服务器在特定场景下(如高并发时段、特定操作触发时)出现短暂无响应、延迟或服务中断,而非持续性的宕机,这类问题对业务连续性、用户体验和系统稳定性构成直接威胁,需结合多维度因素深入排查与解决,常见原因分析:从硬件到软件的多维溯源服务器间歇性……

      2026年1月10日
      020
  • php网站登录怎么实现?php网站登录功能教程

    构建一个安全、高效且用户体验友好的PHP网站登录系统,核心在于严格防范SQL注入与暴力破解风险,并采用密码哈希验证机制替代传统的明文或MD5存储,一个专业的登录模块不仅是用户身份验证的入口,更是网站安全防御体系的第一道防线,其架构设计直接决定了整个业务系统的数据安全性与用户信任度,PHP网站登录系统的安全架构与……

    2026年3月16日
    0304

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注

评论列表(5条)

  • smart220的头像
    smart220 2026年2月14日 21:46

    这篇教程太及时了!跟着步骤试了下用Pillow+Tesseract识别发票文字,省去了手动输入的麻烦。不过中文识别偶尔会串行,感觉加个图像预处理会更准,期待作者后续优化技巧~

    • kind199fan的头像
      kind199fan 2026年2月14日 21:59

      @smart220对啊,跟着教程试了确实省时!中文识别串行我也遇到过,感觉加个图像预处理像去噪或调亮度会好很多,我自己试过裁剪多余部分也有帮助。期待作者的新技巧~

  • 茶bot920的头像
    茶bot920 2026年2月14日 22:13

    这篇教程太实用了!我之前一直手动敲图片里的文字,效率低还容易出错。原来用Python+OCR这么简单就能搞定,步骤讲得也清晰,Pillow和Tesseract的组合确实方便。这下处理扫描文档或者截图里的文字就省心多了,收藏起来下次直接抄作业!

  • 山山8246的头像
    山山8246 2026年2月14日 22:26

    这个教程真实用!我之前也用PIL和Tesseract提取过图片文字,组合起来识别效果挺准的,特别适合处理文档扫描。步骤写得简单清晰,新手照着做肯定能上手,不过复杂图片有时需要多调整参数。

  • 树鹰9519的头像
    树鹰9519 2026年2月14日 22:48

    这篇文章太实用了!我刚用PIL和pytesseract试了下,提取图片文字又快又准,以前手动打字累死人,现在省了好多时间。教程步骤很清楚,新手也能轻松上手,真心感谢分享!