Crazy Rebel: викификация, оформление, иллюстрация

2011-07-21T10:58:05Z

викификация, оформление, иллюстрация

Новая страница

==''FineReader 8 CLI''==

{{Сравнение
|кратко=OCR-пакет, распознающий тексты на многих языках, с выводом в различные форматы.
|также=''Tesseract''
|изображение=LXF133_12_1.jpg
|подпись=В целом качество распознавания превосходное, а вывод в различные форматы весьма полезен, особенно для HTML и PDF.
|разработчик=Abbyy
|сайт=http://www.ocr4linux.com
|цена=€149 за 12 000 страниц в год
|параметр1=Функциональность
|оценка1=7
|параметр2=Производительность
|оценка2=9
|параметр3=Простота использования
|оценка3=6
|параметр4=Опривданность цены
|оценка4=8
|итог=Быстрая работа, точные результаты распознавания текста на многих языках. Документация и удобство использования радуют меньше.
|рейтинг=8
}}

: Одолели бумаги? Оцифруйте архивы при содействии '''Ника Вейча''', посредством OCR-инструмента командной строки от Abbyy.

Некогда вся цивилизация держалась на бумаге. Все человеческие знания хранились в виде записей. Но ныне всё больше документов существует исключительно в компьютерах. Сложности возникают, когда мы пробуем совместить два этих мира. Хранение отсканированных документов неэффективно. И не только потому, что сканы занимают много места, но и потому, что слова внутри таких документов мертвеют, становятся недоступными для мощных поисковых алгоритмов.

ПО для оптического распознавания символов (OCR) существует со времени появления первых сканеров, и можно надеяться, что прогресс всё это время не стоял на месте. Уж коли британская полиция в состоянии автоматически считывать номера миллионов движущихся автомобилей, неужели так трудно распознать чёткие типографские строчки? Компания Abbyy занимается этим вопросом давно, накопила изрядный опыт, а её продукция славится высокой производительностью.

Установка вполне проста, хотя понадобится некоторое знакомство с командной строкой. Но раз уж это приложение командной строки, инсталляция может быть не самой главной сложностью. На нашей тестовой машине единственной неувязкой был конфликт с SELinux – ну, с кем не бывает...

Кроме простого текста, вывод возможен и в другие форматы, включая PDF и HTML. В последнем случае делается попытка имитировать оригинал: колонки текста и даже изображения сохраняются на местах. Хотя самое важное – это все же распознать слова, структура документа – вещь тоже полезная. Для одного только HTML имеется 16 различных параметров настройки, включая табуляцию, размещение изображений и соответствие различным стандартам. Поддержка PDF «упакована» аналогично. Несмотря даже на то, что в наших тестах были распознаны не все символы, компоновка полностью сохранилась.

===Полиглот===

Точность распознавания в целом очень хорошая. Как и у всех OCR-приложений, осложнение создают тексты, перекрытые графикой, и многоколоночные страницы. Похоже, что программа стремится искать правильные, прямоугольные блоки текста; но, по счастью, не сильно обижается на перекос документа в сканере. Тестировали мы и иностранные документы, коль скоро заявлена поддержка аж 190 языков. Немецкий и французский прошли на ура, а надписей на суахили у нас под рукой не было. На бонус предлагается чтение языков программирования, включая ''C/C++'' и ''Java'', а также неувядающего ''Fortran''.

Более всего удивила документация: HTML-страницы скудны примерами, зато пестрят орфографическими ошибками. Это простительно для бесплатного ПО, но не для коммерческой программы. HTML-страницы представлены в man-стиле и содержат уйму подробностей, но неприятно мало полезных примеров. Нет и объяснений, как использовать командную строку для пакетной обработки материалов.

Чтобы оправдать стоимость годовой лицензии – 149 евро – нужно перелопатить немало страниц, хотя в промышленных масштабах это до смешного недорого.

===Свойства навскидку===

* '''Штрих-коды'''
: Вместе с текстом можно расшифровывать и штрих-коды распространённых типов.
* '''PDF'''
: Выводите отсканированные документы из ''FineReader'' в формате PDF.

LXF133:Review5 - История изменений

Crazy Rebel: викификация, оформление, иллюстрация