skip to content
Logo
Yurikago Blog

CentOS7 Tesseract 3.04をビルドして実行する

/ 2 min read

Table of Contents

参考ページ の手順でコマンドを実行して上手く動作しなかった部分がありました。そのとき対応したことを記載します。

検証環境

  • Windows 10 Home
  • Vagrant 2.1.2
  • Virtual Box 5.2.12
    • CentOS 7

必要なライブラリをインストール

以下のライブラリを追加でインストールしました。

Terminal window
% yum install -y wget
% yum install -y gcc gcc-c++
% yum install -y git

Leptonicaのバージョンは1.74.4を選択しました。

Terminal window
% wget http://www.leptonica.com/source/leptonica-1.74.4.tar.gz

tesseract-ocrと辞書のインストール

参考ページはgit cloneしたあとmasterブランチに切り替えた状態でautogen.shやconfigureを実行しています。ところがmasterや3.05ブランチでconfigureを実行すると以下のエラーが発生します。(Leptonicaのバージョンは満たしているはず)

configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.

3.04ブランチはエラーが発生せずビルドできました。

traineddataのコピー

環境変数TESSDATA_PREFIXで設定したディレクトリに存在するtessdataにコピーする必要があります。例えばTESSDATA_PREFIXに /usr/local/src/tesseract/ を設定した場合、tesseractコマンドを実行すると以下のディレクトリのtraineddataを参照します。

/usr/local/src/tesseract/tessdata/jpn.traineddata