Программа распознавания текста Cuneiform
Для распознавания текста в linux есть неплохая альтернатива Finereader — консольная утилита Cuneiform. Я ставил ее на debian, в репозитариях ее не было, поэтому пришлось качать исходники с
https://launchpad.net/cuneiform-linux/ (там есть именно под debian, как, впрочем, и под другие дистрибутивы linux). Ставим пакеты, которые понадобятся для установки (если еще не установлены):
apt-get install imagemagick libmagick-dev cmake build-essentialКачаем исходники:
wget https://launchpad.net/debian/+archive/primary/+files/cuneiform_1.1.0%2Bdfsg.orig.tar.bz2
Распаковываем:
tar xvjf cuneiform_1.1.0+dfsg.orig.tar.bz2Переходим в распакованный каталог:
cd cuneiform-1.1.0.orig
Далее процесс установки:
mkdir builddir
cd builddir
cmake -DCMAKE_BUILD_TYPE=debug ..
make
make installУ меня 64х-битная версия debian и при запуске cuneiform появлялась ошибка:
error while loading shared libraries: libcuneiform.so.0Решил проблему копированием библиотек из /usr/local/lib64/ в /usr/lib/ :
cp /usr/local/lib64/* /usr/lib/Установка завершена, пример запуска программы:
cuneiform -l rus -o /home/it/scan.rtf -f rtf /home/it/Scanned.jpg-l -Указывает язык документа. Из возможных: eng(по умолчанию) ger fra rus swe spa ita ruseng ukr srp hrv pol dan por dut cze rum hun bul slo lav lit est tur.
-o -Сохраняет в файл.
-f -Формат полученного текста. Из поддерживаемых: text(по умолчанию), html, rtf, smarttext(plain text with TeX paragraphs), hocr(hOCR HTML format), native(Cuneiform 2000 format)
Aug. 1, 2012