Журнал LinuxFormat - перейти на главную

LXF133:Review5

Материал из Linuxformat
Версия от 13:58, 21 июля 2011; Crazy Rebel (обсуждение | вклад)

(разн.) ← Предыдущая | Текущая версия (разн.) | Следующая → (разн.)
Перейти к: навигация, поиск

FineReader 8 CLI

Одо­ле­ли бу­ма­ги? Оциф­руй­те ар­хи­вы при со­дей­ствии Ника Вей­ча, по­средством OCR-ин­ст­ру­мен­та команд­ной стро­ки от Abbyy.

Некогда вся ци­ви­ли­за­ция дер­жалась на бу­ма­ге. Все че­ло­ве­че­ские знания хранились в ви­де записей. Но ныне всё боль­ше до­ку­мен­тов суще­ству­ет исклю­чи­тель­но в ком­пь­ю­те­рах. Слож­но­сти возника­ют, когда мы пробу­ем со­вместить два этих ми­ра. Хранение от­сканиро­ван­ных до­ку­мен­тов неэффек­тив­но. И не толь­ко по­то­му, что ска­ны занима­ют мно­го места, но и по­то­му, что сло­ва внут­ри та­ких до­ку­мен­тов мерт­ве­ют, ста­но­вят­ся недоступ­ны­ми для мощ­ных по­иско­вых ал­го­рит­мов.

ПО для оп­ти­че­ско­го рас­по­зна­вания сим­во­лов (OCR) су­ще­ству­ет со вре­мени по­яв­ления пер­вых сканеров, и мож­но наде­ять­ся, что про­гресс всё это вре­мя не стоял на месте. Уж ко­ли бри­тан­ская по­ли­ция в со­стоянии ав­то­ма­ти­че­ски счи­ты­вать номе­ра мил­лио­нов дви­жу­щих­ся ав­то­мо­билей, неу­же­ли так труд­но рас­по­знать чёт­кие ти­по­граф­ские строч­ки? Ком­пания Abbyy занима­ет­ся этим во­про­сом дав­но, на­ко­пила из­ряд­ный опыт, а её про­дук­ция сла­вится вы­со­кой про­из­во­ди­тель­но­стью.

Уста­нов­ка вполне про­ста, хо­тя по­на­добит­ся неко­то­рое зна­ком­ство с команд­ной стро­кой. Но раз уж это при­ло­жение команд­ной стро­ки, ин­стал­ля­ция мо­жет быть не самой глав­ной слож­но­стью. На на­шей тестовой ма­шине един­ствен­ной неувяз­кой был кон­фликт с SELinux – ну, с кем не бы­ва­ет...

Кро­ме про­сто­го тек­ста, вы­вод возмо­жен и в дру­гие фор­ма­ты, вклю­чая PDF и HTML. В по­следнем слу­чае де­ла­ет­ся попыт­ка ими­ти­ро­вать ори­ги­нал: ко­лон­ки тек­ста и да­же изо­бра­жения со­хра­ня­ют­ся на местах. Хо­тя са­мое важ­ное – это все же рас­по­знать сло­ва, струк­ту­ра до­ку­мен­та – вещь то­же по­лез­ная. Для од­но­го толь­ко HTML име­ет­ся 16 раз­лич­ных па­ра­мет­ров на­строй­ки, вклю­чая та­бу­ля­цию, раз­мещение изо­бра­жений и со­от­вет­ствие различ­ным стан­дар­там. Под­держ­ка PDF «упа­ко­ва­на» ана­ло­гич­но. Несмот­ря да­же на то, что в на­ших тестах бы­ли рас­по­зна­ны не все сим­во­лы, ком­по­нов­ка пол­но­стью со­хранилась.

По­ли­глот

Точ­ность рас­по­зна­вания в це­лом очень хо­ро­шая. Как и у всех OCR-приложений, осложнение соз­да­ют тек­сты, пе­ре­кры­тые гра­фи­кой, и мно­го­ко­ло­ноч­ные страницы. По­хо­же, что про­грам­ма стре­мит­ся искать пра­виль­ные, пря­мо­уголь­ные бло­ки тек­ста; но, по сча­стью, не силь­но оби­жа­ет­ся на пе­ре­кос до­ку­мен­та в сканере. Тести­рова­ли мы и ино­стран­ные до­ку­мен­ты, коль ско­ро за­яв­ле­на под­держ­ка аж 190 языков. Немец­кий и фран­цуз­ский про­шли на ура, а надпи­сей на суа­хи­ли у нас под рукой не бы­ло. На бо­нус пред­ла­га­ет­ся чтение язы­ков про­грам­ми­ро­вания, вклю­чая C/C++ и Java, а так­же неувя­даю­ще­го Fortran.

Бо­лее все­го уди­ви­ла до­ку­мен­тация: HTML-страницы скуд­ны при­ме­ра­ми, за­то пе­ст­рят ор­фо­гра­фи­че­ски­ми ошибка­ми. Это про­сти­тель­но для бес­платно­го ПО, но не для ком­мер­че­ской програм­мы. HTML-страницы пред­став­ле­ны в man-сти­ле и со­дер­жат уй­му под­роб­ностей, но непри­ят­но ма­ло по­лез­ных при­меров. Нет и объ­яснений, как ис­поль­зо­вать команд­ную стро­ку для па­кет­ной об­ра­бот­ки ма­те­риа­лов.

Что­бы оп­рав­дать стои­мость го­до­вой ли­цен­зии – 149 ев­ро – нуж­но пе­ре­ло­па­тить нема­ло страниц, хо­тя в про­мыш­лен­ных мас­шта­бах это до смешного недо­ро­го.

Свойства навскидку

  • Штрих-ко­ды
Вме­сте с тек­стом мож­но расшиф­ро­вы­вать и штрих-ко­ды рас­про­стра­нён­ных ти­пов.
  • PDF
Вы­во­ди­те от­ска­ни­ро­ван­ные до­ку­мен­ты из FineReader в фор­ма­те PDF.
Персональные инструменты
купить
подписаться
Яндекс.Метрика