<?xml version="1.0"?>
<?xml-stylesheet type="text/css" href="http://wiki.linuxformat.ru/wiki/skins/common/feed.css?303"?>
<feed xmlns="http://www.w3.org/2005/Atom" xml:lang="ru">
		<id>http://wiki.linuxformat.ru/wiki/index.php?action=history&amp;feed=atom&amp;title=LXF150%3AOCR</id>
		<title>LXF150:OCR - История изменений</title>
		<link rel="self" type="application/atom+xml" href="http://wiki.linuxformat.ru/wiki/index.php?action=history&amp;feed=atom&amp;title=LXF150%3AOCR"/>
		<link rel="alternate" type="text/html" href="http://wiki.linuxformat.ru/wiki/index.php?title=LXF150:OCR&amp;action=history"/>
		<updated>2026-05-13T08:43:22Z</updated>
		<subtitle>История изменений этой страницы в вики</subtitle>
		<generator>MediaWiki 1.19.20+dfsg-0+deb7u3</generator>

	<entry>
		<id>http://wiki.linuxformat.ru/wiki/index.php?title=LXF150:OCR&amp;diff=15513&amp;oldid=prev</id>
		<title>2sash-kan: Новая страница: «==Оптическое распознавание текста==  {{Врезка|right|Заголовок=Наш эксперт|Содержание=Тимур М…»</title>
		<link rel="alternate" type="text/html" href="http://wiki.linuxformat.ru/wiki/index.php?title=LXF150:OCR&amp;diff=15513&amp;oldid=prev"/>
				<updated>2014-08-29T12:30:30Z</updated>
		
		<summary type="html">&lt;p&gt;Новая страница: «==Оптическое распознавание текста==  {{Врезка|right|Заголовок=Наш эксперт|Содержание=Тимур М…»&lt;/p&gt;
&lt;p&gt;&lt;b&gt;Новая страница&lt;/b&gt;&lt;/p&gt;&lt;div&gt;==Оптическое распознавание текста==&lt;br /&gt;
&lt;br /&gt;
{{Врезка|right|Заголовок=Наш эксперт|Содержание=Тимур Мубаракшин&lt;br /&gt;
имеет более чем 10-летний опыт работы в сфере ИТ, но с OCR-системами в Linux столкнулся недавно, и теперь переводит свой бумажный архив в электронный.|Ширина=20%}}&lt;br /&gt;
&lt;br /&gt;
:Что написано пером, то хорошо бы прочитать компьютером. '''Тимур Мубаракшин''' рассматривает приложения, которые это умеют.&lt;br /&gt;
&lt;br /&gt;
Linux не страдает от отсутствия утилит для распознавания текстов. Среди них и легкая в использовании и минималистская программа – Cuneiform-Qt, вышедшая из-под рук программиста ALT Linux Team Андрея Черепанова; и консольная утилита GOCR; и Tesseract – программа с длинной историей; и некоторые другие программы. Мы попробуем дать здесь их беглый обзор.&lt;br /&gt;
&lt;br /&gt;
===Сuneiform-Qt===&lt;br /&gt;
&lt;br /&gt;
Сuneiform-Qt имеет очень минималистский интерфейс – кому-то он может показаться даже скудным; однако это не так. У программы есть все для того, чтобы удовлетворить потребности обычного домашнего пользователя: она позволяет открыть изображение в популярных графических форматах и распознать текст в этом изображении. Распознанный текст можно сохранить в формате HTML, обычном тексте или RTF. Перед распознаванием можно выбрать язык текста и формат. Пока поддерживается лишь работа с изображениями – получить текст прямо со сканера на данный момент нельзя.&lt;br /&gt;
&lt;br /&gt;
Программа написана на C++ с использованием библиотеки Qt4 под Linux; последняя стабильная версия на сегодня – 0.1.1. Выпускается Сuneiform-Qt под лицензией GPLv3.&lt;br /&gt;
&lt;br /&gt;
На слабых компьютерах (768 МБ ОЗУ, процессор Intel Celeron 2400 Мгц) Cuneiform-Qt работает медленнее, чем хотелось бы, но это, видимо, особенности движка от Cuneiform, а не недостаток оболочки Андрея Черепанова. Иногда русский текст бывает нечитаемым, что, в свою очередь, можно списать на молодость версии продукта.&lt;br /&gt;
&lt;br /&gt;
В целом Cuneiform-Qt производит положительное впечатление, и работает вполне сносно с небольшими объемами информации (до 10 страниц текста), так что ее можно посоветовать домашним пользователям.&lt;br /&gt;
&lt;br /&gt;
===GOCR===&lt;br /&gt;
&lt;br /&gt;
GOCR – мощная консольная утилита, способная работать со многими языками.&lt;br /&gt;
&lt;br /&gt;
Разработку GOCR начал в далеком 2000 году Йорг Шуленбургом [Jo..rg Schulenburg], и в дальнейшем у проекта появилась небольшая собственная команда. Разработка GOCR идет не особенно шустро, однако основная функциональность для приложений подобного рода имеется. Для GOCR существует удобная графическая оболочка OCRFeeder, о которой речь пойдет чуть ниже.&lt;br /&gt;
&lt;br /&gt;
Чтобы внести ясность, упомянем, что GOCR имеет второе название – JOCR: по словам автора приложения, так получилось потому, что на проекте sourceforge.net адрес gocr.sourceforge.net был уже занят. Но название JOCR (Jo..rg’s Optical Character Recognition – «OCR от Йорга») сейчас используется только для адреса страницы, хотя это и вносит некоторую путаницу.&lt;br /&gt;
&lt;br /&gt;
GOCR полностью поддерживает импорт изображений в форматах PNM, PBM, PGM, PPM и TGA; PCX поддерживается частично. Другие форматы изображений, такие как PNG, JPG, TIFF, GIF, BMP и pnm.gz/pnm.bz2, автоматически преобразовываются (используются утилиты сжатия netpbm-progs, gzip и bzip2).&lt;br /&gt;
&lt;br /&gt;
GOCR поддерживает распознавание текста на основных европейских языках, однако русского, к сожалению, среди них нет. Поэтому GOCR можно посоветовать, например, переводчикам. Процесс распознавания работает довольно быстро и не требует больших ресурсов компьютера.&lt;br /&gt;
&lt;br /&gt;
Утилита может получать изображения напрямую со сканера (используя интерфейс XSane); распознанный текст может сохраняться в форматах TXT, ASC и HTML. Весь процесс распознавания будет виден в консоли.&lt;br /&gt;
&lt;br /&gt;
В качестве движка для оптического распознавания текста GOCR использует некоторые консольные и графические приложения, например OCRFeeder, и выпускается под лицензией GPLv2.&lt;br /&gt;
&lt;br /&gt;
===Tesseract===&lt;br /&gt;
&lt;br /&gt;
Tesseract – свободная программа для распознавания текстов, разрабатывавшаяся компанией Hewlett-Packard с середины 1980-х по середину 1990-х, а затем 10 лет «пролежавшая на полке». В августе 2006 г. компания Google купила ее и открыла исходные тексты под лицензией Apache 2.0 для продолжения разработки. В настоящий момент программа уже работает с кодировкой UTF-8; поддержка языков (с версии 3.0 – включая русский) осуществляется с помощью дополнительных модулей.&lt;br /&gt;
&lt;br /&gt;
Ядро программы Tesseract разрабатывалось в Бристольской лаборатории Hewlett Packard (Великобритания) и в Hewlett Packard Co, в г. Грили, штат Колорадо, США, в 1985 – 1994 годах. В 1996 были введены значительные изменения и подготовлен порт для Windows. Значительная часть кода изначально написана на С, но проводились доработки для совместимости и с С++.&lt;br /&gt;
&lt;br /&gt;
Для Tesseract имеется также графический интерфейс, который призван упростить использование программы для не искушенных в командной строке пользователей Linux – Tesseract-GUI, построенный на Python/GTK+.&lt;br /&gt;
&lt;br /&gt;
Изображения, открываемые в Tesseract-GUI для распознавания, могут быть монохромными (черно-белыми), с градациями серого и цветными. Допускаются форматы изображений PNG или JPG, но для более качественного распознавания текста рекомендуется преобразовать изображение в формат хранения растровых изображений TIFF.&lt;br /&gt;
&lt;br /&gt;
Tesseract-GUI дает возможность повысить контрастность изображения и изменить угол наклона (на исходном изображении изменения не отражаются). Распознаваться может как текст на всем изображении, так и текст выделенного участка изображения.&lt;br /&gt;
&lt;br /&gt;
Для корректной работы оболочки требуется библиотека приложений, анализирующих и обрабатывающих изображения – leptonica. Установка Tesseract и Tesseract-GUI в большинстве популярных дистрибутивов происходит в штатном режиме с помощью соответствующего менеджера пакетов.&lt;br /&gt;
&lt;br /&gt;
Tesseract-GUI сохраняет распознанный текст в файле формата TXT, в директории с распознаваемым изображением, однако можно указать свой каталог и дать имя файлу. Если в изображении две страницы (например, это разворот книиги) то распознанный текст может быть сохранен как в одном, так и в нужном числе файлов постранично. Лицензия у Tesseract-GUI – GPLv2.&lt;br /&gt;
&lt;br /&gt;
Tesseract-GUI работает очень быстро и подходит для большинства пользователей, которым требуется распознавание текстов объемом до 50 страниц. Поддержка русского языка не столь хороша, как, например, в Cuneiform, но все же имеется. Последняя стабильная версия приложения – 3.0.&lt;br /&gt;
&lt;br /&gt;
===OCRFeeder===&lt;br /&gt;
&lt;br /&gt;
OCRFeeder – удобный, написанный на Python и GTK+ графический интерфейс к нескольким консольным OCR-приложениям.&lt;br /&gt;
&lt;br /&gt;
Разработка OCRFeeder начата как магистерская диссертация по специальности «Прикладная информатика» программистом Хоакимом Роча [Joaquim Rocha]. В дальнейшем приложение вошло в состав Gnome Project.&lt;br /&gt;
&lt;br /&gt;
OCRFeeder автоматически определяет наличие установленных в системе OCR-приложений, а именно CuneiForm, GOCR, Ocrad, Tesseract, и использует их в качестве «движка», а для распознания структуры документа применяется собственный алгоритм распознавания.&lt;br /&gt;
&lt;br /&gt;
Для поддержки распознавания языков в настройках всех перечисленных систем распознавания необходимо добавить аргумент, указывающий на этот язык. Например, для корректного распознавания текстов на русском необходимо добавить “-l rus”, а для правильной проверки русской орфографии помечать распознаваемый текст как русский. Все настройки выполняются с помощью мыши.&lt;br /&gt;
&lt;br /&gt;
В OCRFeeder можно импортировать данные как из графических файлов, во множестве популярных форматов (JPEG, PNG, BMP, TIFF, GIF, PNM, PPM, PBM и прочих), так и из файлов PDF. Также поддерживается захват изображения непосредственно со сканера. Изображения могут быть добавлены простым перетаскиванием в окно приложения из файлового менеджера или из контекстного меню Nautilus, файлового менеджера Gnome.&lt;br /&gt;
&lt;br /&gt;
OCRFeeder позволяет очистить исходное изображение (без коррекции оригинала), в открытом изображении задать или изменить границы распознавания и выбрать наиболее подходящий для конкретного документа «движок» распознавания символов.&lt;br /&gt;
&lt;br /&gt;
Имеется также возможность скорректировать нераспознанные символы, настроить стили параграфов, применить проверку орфографии в распознанном тексте с помощью библиотеки libaspell и выбрать шрифт для сохраняемых документов.&lt;br /&gt;
&lt;br /&gt;
Основным форматом для сохранения результатов распознавания в OCRFeeder является ODT (OpenDocument Format). Текст также может быть сохранен в обычном текстовом формате TXT или в HTML.&lt;br /&gt;
&lt;br /&gt;
Хотя OCRFeeder разрабатывается как приложение с графическим интерфейсом, имеется возможность работы и из командной строки с помощью утилиты ocrfeeder-cli. Это может оказаться полезным для автоматической пакетной обработки документов. Лицензия OCRFeeder – GPLv3. Последняя стабильная версия на сегодня – 0.7.5. Приложение можно посоветовать всем, кому нужно использовать несколько «движков» для распознавания тестов.&lt;br /&gt;
&lt;br /&gt;
{{Врезка|left|Заголовок=Что предпочесть?|Содержание=Из всех представленных в данном обзоре программ для оптического распознавания тестов наиболее подходящей и удобной для русских пользователей является Cuneiform-Qt, благодаря поддержке русского языка и простому и интуитивно понятному интерфейсу; однако тем, кому нужно заниматься распознаванием текстов профессионально, стоит обратить внимание на ABBYY FineReader for Linux.|Ширина=20%}}&lt;br /&gt;
&lt;br /&gt;
===ABBYY FineReader for Linux===&lt;br /&gt;
&lt;br /&gt;
Нельзя обойти вниманием и коммерческую утилиту для распознавания текстов под Linux – уж слишком она известна.&lt;br /&gt;
&lt;br /&gt;
FineReader – система оптического распознавания символов, разрабатываемая российской компанией ABBYY – слывет лучшей OCR-системой для Windows-машин. Версия для Linux не обладает графическим интерфейсом, что выглядит немного странно, поскольку за полную версию программы приходится выкладывать € 149, и при этом количество распознаваемых страниц ограничивается величиной 12 000 в год. Имеются и более дорогие версии, в которых это количество значительно увеличено.&lt;br /&gt;
&lt;br /&gt;
ABBYY FineReader for Linux – консольная утилита распознавания, пользующаяся набором подключаемых библиотек распознавания.&lt;br /&gt;
&lt;br /&gt;
Приложение использует интеллектуальную OCR-систему и собственную технологию распознавания, позволяющую распознавать и воссоздавать документы со сложным форматированием.&lt;br /&gt;
&lt;br /&gt;
С учетом немаленькой стоимости программы покупать ее для домашнего использования, возможно, и не стоит, однако для небольшой компании эта сумма выглядит вполне приемлемой.&lt;br /&gt;
&lt;br /&gt;
Программа имеет множество ключей командной строки, которые позволяют гибко настроить параметры распознавания.&lt;br /&gt;
&lt;br /&gt;
На сайте проекта имеется также и демо-версия, позволяющая распознать 100 страниц (после регистрации на сайте и получения серийного номера для демо-версии). Установка ABBYY FineReader for Linux сводится к запуску от имени администратора двоичного файла (./abbyyocr.bin) из архива, скачанного с сайта проекта, и введению во время установки серийного номера.&lt;br /&gt;
&lt;br /&gt;
Команда для запуска распознавания выглядит примерно так:&lt;br /&gt;
&lt;br /&gt;
 abbyyocr -rl Russian English -if test.png -f RTF -of test.rtf&lt;br /&gt;
&lt;br /&gt;
ABBYY FineReader for Linux поддерживает распознавание текста (полное и частичное) на более чем двухстах языках и предусматривает множество опций командной строки для гибкой настройки параметров распознавания.&lt;br /&gt;
&lt;br /&gt;
Для сохранения результатов распознавания используются проприетарные форматы хранения текстовых документов; основной формат сохранения – RTF. Лицензия программы проприетарная, а последняя версия – 9.0.&lt;/div&gt;</summary>
		<author><name>2sash-kan</name></author>	</entry>

	</feed>