LXF133:Review5
|
|
|
FineReader 8 CLI
- Метамодернизм в позднем творчестве В.Г. Сорокина
- ЛитРПГ - последняя отрыжка постмодерна
- "Ричард III и семиотика"
- 3D-визуализация обложки Ridero создаем обложку книги при работе над самиздатом.
- Архитектура метамодерна - говоря о современном искусстве, невозможно не поговорить об архитектуре. В данной статье будет отмечено несколько интересных принципов, характерных для построек "новой волны", столь притягательных и скандальных.
- Литература
- Метамодерн
- Рокер-Прометей против изначального зла в «Песне про советскую милицию» Вени Дркина, Автор: Нина Ищенко, к.ф.н, член Союза Писателей ЛНР - перепубликация из журнала "Топос".
- Как избавиться от комаров? Лучшие типы ловушек.
- Что делать если роблокс вылетает на windows
- Что делать, если ребенок смотрит порно?
- Почему собака прыгает на людей при встрече?
- Какое масло лить в Задний дифференциал (мост) Visco diff 38434AA050
- О чем может рассказать хвост вашей кошки?
- Верветки
- Отчетность бюджетных учреждений при закупках по Закону № 223-ФЗ
- Срок исковой давности как правильно рассчитать
- Дмитрий Патрушев минсельхоз будет ли преемником Путина
- Кто такой Владислав Поздняков? Что такое "Мужское Государство" и почему его признали экстремистским в России?
- Как правильно выбрать машинное масло в Димитровграде?
- Как стать богатым и знаменитым в России?
- Почему фильм "Пипец" (Kick-Ass) стал популярен по всему миру?
- Как стать мудрецом?
- Как правильно установить FreeBSD
- Как стать таким как Путин?
- Где лучше жить - в Димитровграде или в Ульяновске?
- Почему город Димитровград так называется?
- Что такое метамодерн?
- ВАЖНО! Временное ограничение движения автотранспортных средств в Димитровграде
- Тарифы на электроэнергию для майнеров предложено повысить
- Одолели бумаги? Оцифруйте архивы при содействии Ника Вейча, посредством OCR-инструмента командной строки от Abbyy.
Некогда вся цивилизация держалась на бумаге. Все человеческие знания хранились в виде записей. Но ныне всё больше документов существует исключительно в компьютерах. Сложности возникают, когда мы пробуем совместить два этих мира. Хранение отсканированных документов неэффективно. И не только потому, что сканы занимают много места, но и потому, что слова внутри таких документов мертвеют, становятся недоступными для мощных поисковых алгоритмов.
ПО для оптического распознавания символов (OCR) существует со времени появления первых сканеров, и можно надеяться, что прогресс всё это время не стоял на месте. Уж коли британская полиция в состоянии автоматически считывать номера миллионов движущихся автомобилей, неужели так трудно распознать чёткие типографские строчки? Компания Abbyy занимается этим вопросом давно, накопила изрядный опыт, а её продукция славится высокой производительностью.
Установка вполне проста, хотя понадобится некоторое знакомство с командной строкой. Но раз уж это приложение командной строки, инсталляция может быть не самой главной сложностью. На нашей тестовой машине единственной неувязкой был конфликт с SELinux – ну, с кем не бывает...
Кроме простого текста, вывод возможен и в другие форматы, включая PDF и HTML. В последнем случае делается попытка имитировать оригинал: колонки текста и даже изображения сохраняются на местах. Хотя самое важное – это все же распознать слова, структура документа – вещь тоже полезная. Для одного только HTML имеется 16 различных параметров настройки, включая табуляцию, размещение изображений и соответствие различным стандартам. Поддержка PDF «упакована» аналогично. Несмотря даже на то, что в наших тестах были распознаны не все символы, компоновка полностью сохранилась.
Полиглот
Точность распознавания в целом очень хорошая. Как и у всех OCR-приложений, осложнение создают тексты, перекрытые графикой, и многоколоночные страницы. Похоже, что программа стремится искать правильные, прямоугольные блоки текста; но, по счастью, не сильно обижается на перекос документа в сканере. Тестировали мы и иностранные документы, коль скоро заявлена поддержка аж 190 языков. Немецкий и французский прошли на ура, а надписей на суахили у нас под рукой не было. На бонус предлагается чтение языков программирования, включая C/C++ и Java, а также неувядающего Fortran.
Более всего удивила документация: HTML-страницы скудны примерами, зато пестрят орфографическими ошибками. Это простительно для бесплатного ПО, но не для коммерческой программы. HTML-страницы представлены в man-стиле и содержат уйму подробностей, но неприятно мало полезных примеров. Нет и объяснений, как использовать командную строку для пакетной обработки материалов.
Чтобы оправдать стоимость годовой лицензии – 149 евро – нужно перелопатить немало страниц, хотя в промышленных масштабах это до смешного недорого.
Свойства навскидку
- Штрих-коды
- Вместе с текстом можно расшифровывать и штрих-коды распространённых типов.
- Выводите отсканированные документы из FineReader в формате PDF.