Centos7 下 部署开源tesseract-ocr完整教程

Centos 7 下部署 tesseract5

我的 Centos7 是一个干净的系统,另外下述操作步骤亲测.

参考博客

  • http://www.nanstar.top/p/wiki_1649411481701
  • https://segmentfault.com/a/1190000041832780

相关资源下载地址

https://download.csdn.net/download/qq_33547169/88168646

脚本

# 安装libjpeg-devel libpng-devel ,可以让 leptonica支持 png 和 peg 的图片。
# 具体最终支持哪些文件,可以通过 tesseract --version 命令查看
yum install -y automake ca-certificates g++ libtool make libtiff-devel libjpeg-devel libpng-devel centos-release-scl devtoolset-8-gcc*
scl enable devtoolset-8 bash
mv /usr/bin/gcc /usr/bin/gcc-4.8.5
ln -s /opt/rh/devtoolset-8/root/bin/gcc /usr/bin/gcc
mv /usr/bin/g++ /usr/bin/g++-4.8.5
ln -s /opt/rh/devtoolset-8/root/bin/g++ /usr/bin/g++
# 如果下载了资源 可以跳过 wget
wget http://www.leptonica.org/source/leptonica-1.82.0.tar.gz
tar zxf leptonica-1.82.0.tar.gz 
cd leptonica-1.82.0/
./configure && make -j 100 && make install

# 配置环境变量
vi /etc/profile
export LD_LIBRARY_PATH=$LD_LIBRARY_PATH:/usr/local/lib
export LIBLEPT_HEADERSDIR=/usr/local/include
export PKG_CONFIG_PATH=/usr/local/lib/pkgconfig
source /etc/profile

# 如果下载了资源 可以跳过 wget
wget https://github.com/tesseract-ocr/tesseract/archive/refs/tags/5.1.0.zip
unzip tesseract-5.1.0.zip
cd tesseract-5.1.0

./autogen.sh 
./configure --with-extra-includes=/usr/local/include --with-extra-libraries=/usr/local/include
# 可能时间长
make -j 100
make install

tesseract --version

测试

  • 将资源内的 chi_sim.traineddata chi_sim_vert.traineddata 放到目录 /usr/local/share/tessdata/
  • 在整个图片,例如发票截图
tesseract 1.png - -l chi_sim