Программа распознавания текста Cuneiform


Для распознавания текста в linux есть неплохая альтернатива Finereader — консольная утилита Cuneiform. Я ставил ее на debian, в репозитариях ее не было, поэтому пришлось качать исходники с https://launchpad.net/cuneiform-linux/ (там есть именно под debian, как, впрочем, и под другие дистрибутивы linux). Ставим пакеты, которые понадобятся для установки (если еще не установлены):

apt-get install imagemagick libmagick-dev cmake build-essential

Качаем исходники:

wget https://launchpad.net/debian/+archive/primary/+files/cuneiform_1.1.0%2Bdfsg.orig.tar.bz2


Распаковываем:

tar xvjf cuneiform_1.1.0+dfsg.orig.tar.bz2

Переходим в распакованный каталог:

cd cuneiform-1.1.0.orig

Далее процесс установки:

mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make install


У меня 64х-битная версия debian и при запуске cuneiform появлялась ошибка:

error while loading shared libraries: libcuneiform.so.0

Решил проблему копированием библиотек из /usr/local/lib64/ в /usr/lib/ :

cp /usr/local/lib64/* /usr/lib/

Установка завершена, пример запуска программы:

cuneiform -l rus -o /home/it/scan.rtf -f rtf /home/it/Scanned.jpg

-l -Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.

-o -Сохраняет в файл.

-f -Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)

Aug. 1, 2012