tesseract.js的OCR引擎使用教程,tesseract-ocr下载安装及python里调用（图文教程）

tesseract.js是流行的面向纯Javascript的OCR引擎的。该库支持100多种语言(中文支持)

tesseract-ocr下载安装及python里调用
win+r >> 窗口输入cmd >> 输入 pip install pytesseract 第二种: win+r >> 窗口输入cmd >> 输入 pip install pytesseract -i https://pypi.tuna.tsinghua.edu.cn/simple

tesseract.js安装

第一步，用git下载gitbug里的tesseract.js
git clone https://github.com/naptha/tesseract.js.git

第二步，进入目录
cd tesseract.js

第三步，安装依赖
npm install
可以换 cnpm install 来安装，cnpm为国内的npm，速度更多，更多帮助

第四步，运行tesseract.js，生成服务器来调试
npm start
第五步，浏览器里输入网址 http://127.0.0.1:3000/examples/browser/basic-efficient.html
上传一个图片，图片要以字母和数字组成。稍等一会，在浏览器的调试面板里可以看到输出的结果了。

上传的图片识别图片

tesseract-ocr v5.1.0下载安装

第一步，下载地址
https://github.com/tesseract-ocr/tesseract
第二步，选择版本
https://tesseract-ocr.github.io/tessdoc/Installation.html
第三步，下载版本
https://github.com/UB-Mannheim/tesseract/wiki

第一步，下载地址第二步，选择版本第三步，下载版本第四步，双击安装 >> next 第五步，Tesseract-OCR 目录结构第六步，D:\Program Files\Tesseract-OCR 目录添加到系统环境里第七步，cmd里输入>> tesseract D:\work\xiyueta\article\images\tesseractjs\atemp.png stdout 已有的训练数据集可使用命令“tesseract --list-langs”查看
https://github.com/tesseract-ocr/tessdata_best 下载更多字体 git clone git@github.com:tesseract-ocr/tessdata_best.git
tesseract D:\work\xiyueta\article\images\tesseractjs\cn1.png stdout -l chi_sim 指定中文字体

pothon里使用pytesseract图片识别转文字


import pytesseract
from PIL import Image

image = Image.open('cn1.png')
text = pytesseract.image_to_string(image, lang='chi_sim')

print(text)