CentOS7 Tesseract 3.04をビルドして実行する
/ 2 min read
Table of Contents
参考ページ の手順でコマンドを実行して上手く動作しなかった部分がありました。そのとき対応したことを記載します。
検証環境
- Windows 10 Home
- Vagrant 2.1.2
- Virtual Box 5.2.12
- CentOS 7
必要なライブラリをインストール
以下のライブラリを追加でインストールしました。
% yum install -y wget% yum install -y gcc gcc-c++% yum install -y git
Leptonicaのバージョンは1.74.4を選択しました。
% wget http://www.leptonica.com/source/leptonica-1.74.4.tar.gz
tesseract-ocrと辞書のインストール
参考ページはgit cloneしたあとmasterブランチに切り替えた状態でautogen.shやconfigureを実行しています。ところがmasterや3.05ブランチでconfigureを実行すると以下のエラーが発生します。(Leptonicaのバージョンは満たしているはず)
configure: error: Leptonica 1.74 or higher is required. Try to install libleptonica-dev package.
3.04ブランチはエラーが発生せずビルドできました。
traineddataのコピー
環境変数TESSDATA_PREFIXで設定したディレクトリに存在するtessdataにコピーする必要があります。例えばTESSDATA_PREFIXに /usr/local/src/tesseract/
を設定した場合、tesseractコマンドを実行すると以下のディレクトリのtraineddataを参照します。
/usr/local/src/tesseract/tessdata/jpn.traineddata