LXF163: Сканируем документы - История изменений

Olkol: /* Создайте копии важных документов с gscan2pdf */

2018-10-20T11:49:41Z

‎Создайте копии важных документов с gscan2pdf

Olkol: Новая страница: «Категория: Учебники Категория: OCR '''Учебник''' ==Создайте копии важных докум…»

2018-10-20T11:44:45Z

Новая страница: «Категория: Учебники Категория: OCR '''Учебник''' ==Создайте копии важных докум…»

Новая страница

[[Категория: Учебники]]
[[Категория: OCR]]

'''Учебник'''

==Создайте копии важных документов с gscan2pdf==

''Хранение: Все сканируем''
[[Файл:LXF160.tut_hdrive.expert.jpeg.png‎ |left |100px |thumb|'''Наш эксперт''' У Нейла Ботвика по компьютеру в каждой комнате, но он нипочем не скажет вам, где находится центральный сервер – по соображениям безопасности.

> Задайте количество и формат сканируемых страниц, а также — нужно ли распознать текст сразу после сканирования.]]
В офисе Нейла Ботвика нет бумажных документов: он сканирует их с OCR и превращает в текстовые файлы, читаемые ПО индексации рабочего стола.''
Если верить ТВ-программам, которые я смотрел в детстве, сейчас у нас должны были быть летающие автомобили и офисы без бумажных документов. Автомобили пока не летают (разве что за рулем Брюс Уиллис), а бумаг в офисах меньше не стало. Было бы здорово избавиться от всех этих заявлений и прочих документов, приходящих к нам каждый день вместе с почтовым спамом, но в отличие от последнего многие из них подлежат хранению. На двух страницах нам не рассказать, как строят летающие автомобили, и мы поделимся простым способом избавиться от документов, сохранив их содержимое. Это не только экономит место, но оно и надежнее – ведь цифровые файлы можно сохранить в резервной копии (кто читал прошлый номер Linux Format, знает, чем я пользуюсь для этого).

По-простому, скормите документы сканеру и сохраните их в подходящем сжатом, но универсальном формате, например, PNG или PDF, дав им подходящее имя, чтобы потом легко их найти. Но есть и лучшее решение. К файлу изображения можно добавить информацию, доступную для чтения программой индексации рабочего стола, типа Meta Tracker в Gnome или Semantic Desktop или Recoll в KDE. Для этого нужно обработать отсканированную страницу программой оптического распознавания текста (OCR), чтобы получить текстовую версию документа. Эта текстовая версия хранится в файле вместе с изображением, обычно в формате PDF, и при просмотре документа вы видите отсканированное изображение, а поисковая машина рабочего стола находит текст и индексирует его.

Сделать это можно из командной строки: изображение со сканера заберет scanimage из SANE, текстовую версию создаст программа OCR – Cuneiform, GOCR или Tesseract, а объединит файлы ImageMagick. Все это можно собрать в скрипт и делать все одной командой, добавив поддержку сканеров с автоподачей или кнопку Push для сканирования следующей страницы. Можете сделать это сами или воспользуйтесь gscan2pdf, которая сделает это за вас, и добавьте в свой арсенал новую графическую программу. Исходный код имеется на http://gscan2pdf.sourceforge.net, но придется добывать довольно много зависимостей (это программа на Perl, и кроме клиентских программ для основной работы ей нужен набор модулей Perl), поэтому надежнее будет установить ее через менеджер пакетов дистрибутива.

Знакомство с gscan2pdf

Запустите программу и нажмите на кнопку Scan [Сканировать], чтобы открыть окно Scan Options [Параметры сканирования]. Все заданные здесь параметры будут применяться при следующих запусках программы. Поэкспериментируйте с типом сканирования [Scan Type] и разрешением [Resolution], а также с различными движками OCR, чтобы понять, какой из них дает лучшие результаты. При этом удобнее сначала отключить OCR на вкладке Page Options [Параметры страницы] и только сканировать, а затем проверять различные настройки OCR на одной и той же отсканированной копии.

Основные настройки на вкладке Scan Mode [Режим сканирования] – это режим сканирования [Mode] и разрешение [Resolution]. При сканировании в оттенках серого [Greyscale] затрачивается больше времени и получается файл большего размера по сравнению со штриховым рисунком [lineart]. Для сканирования в полноцветном формате нужно еще больше ресурсов, поэтому подумайте о том, что вам действительно нужно – нередко достаточно штрихового рисунка (черно-белого), к тому же он обычно лучше распознается в текст. Разрешение для хорошего распознавания обычно не должно быть менее 400 dpi.

На вкладке Page Options [Параметры страницы] можно также задать количество сканируемых страниц. При подаче страниц в сканер по одной установите его в 1, если ваш сканер не такой, как мой – тот шумит достаточно, чтобы стало ясно: головка возвращается и пора вставлять лист бумаги, пока не началось новое сканирование. Отсканировав пару страниц в gscan2pdf, попробуйте различные движки распознавания текста. Запустите OCR из меню инструментов, выберите один из доступных движков OCR, и пусть он делает свое дело. Затем загляните на вкладку OCR Output [Результат распознавания] и оцените результат – чтобы прочесть текст, придется увеличить масштаб. Чтобы удалить текст и попробовать другой движок, выберите Edit > Clear OCR [Правка > Очистить текст]. В моей системе лучшие результаты дал GOCR, но это, видимо, в числе прочего зависит от качества сканируемых страниц.

Выбрав подходящие настройки сканирования и распознавания, задайте их в окне Scan Documents [Сканировать документы] и двигайтесь дальше. В конце нажмите Save [Сохранить], чтобы сохранить файл. Лучший формат – PDF. Он читается почти на всех устройствах и будет читаться еще очень долго, к тому же текст внутри него доступен для индексирования поисковым системам. Сохранение может отнять больше времени, чем вы ожидали, потому что именно сейчас различные изображения и текстовые страницы объединяются в один файл.

Уменьшение размера

Разрешение для распознавания текста должно быть намного больше, чем для просмотра документа на экране, если только вы не намерены смаковать отдельные буквы, поэтому файлы, которые у вас получатся, будут увесистее, чем нужно. Для одного-двух файлов это некритично, но помножьте их на регулярные банковские отчеты и выписки с кредитных карт, коммунальные квитанции и другие бумаги за год – и вот ваш диск забит.

Сэкономить место можно разными способами – например, сканирование в штриховом рисунке вместо оттенков серого значительно уменьшит размер файлов. Банковский отчет в пять страниц, отсканированный с разрешением 600 dpi в оттенках серого, занял 29 МБ в PDF-файле; при сканировании в штриховом рисунке с тем же разрешением размер файла уменьшился до 1 МБ, и полезная информация вся уцелела. Формат файла тоже может иметь значение – gscan2pdf поддерживает формат DjVu (произносится «дежа вю»), предназначенный специально для архивации цифровых документов с высоким сжатием. В этом формате файл занял 5 МБ в оттенках серого и 300 КБ в штриховом рисунке – мощная экономия места! Более подробная информация о DjVu приведена во врезке.

Размер файлов можно уменьшить и после распознавания, и сделать это можно по-разному. Сохраняя в формате PDF, можно снизить число пикселей на дюйм [PPI] в окне PDF Save [Сохранение PDF]. Стандартное значение – 72; установив его в 36, мы вдвое снизим эффективное разрешение, уменьшив количество пикселей на 75 %. Другая альтернатива, единственная, если используется другой формат – изменить размер изображений во внешней программе. В gscan2pdf есть опция такого запуска, и по умолчанию берется программа GIMP.

Mogrifi-кация

Чтобы изменить размер изображения, можно добавить параметры к команде mogrify из ImageMagick. Mogrify очень похожа на более знакомую команду convert; главное отличие в том, что преобразованное сообщение она записывает не в новый файл, а в оригинал, и поэтому считается небезопасной. Но мы не дадим ей волю куражиться над нашими ценными кадрами, так что проблем не будет. Откройте окно Preferences [Свойства], нажмите на кнопку Add [Добавить] в разделе User-defined [Пользовательские утилиты] и введите команду

mogrify -resize 50% %i

Вас вряд ли удивит пояснение, что эта команда снизит разрешение до 50 % от исходного. Используйте любую достаточную для вас величину – с 25 % и исходным разрешением 600 dpi мы получим хорошо читаемый файл, значительно уменьшив его размер. Чтобы изменить размер страниц, нажмите кнопку Select All Pages [Выделить все страницы], затем запустите mogrify из меню Tools > User-defined [Утилиты > Пользовательские]. При экспериментах с настройками, такими как разрешение изображения и настройки распознавания, сохраняйте оригиналы сканированных изображений в PDF. Тогда, если вам почему-либо не понравятся результаты, их можно загрузить в gscan2pdf, не сканируя документ заново. |

@@ Строка 17: / Строка 17: @@
 Сделать это можно из командной строки: изображение со сканера заберет scanimage из SANE, текстовую версию создаст программа OCR – Cuneiform, GOCR или Tesseract, а объединит файлы ImageMagick. Все это можно собрать в скрипт и делать все одной командой, добавив поддержку сканеров с автоподачей или кнопку Push для сканирования следующей страницы. Можете сделать это сами или воспользуйтесь gscan2pdf, которая сделает это за вас, и добавьте в свой арсенал новую графическую программу. Исходный код имеется на http://gscan2pdf.sourceforge.net, но придется добывать довольно много зависимостей (это программа на Perl, и кроме клиентских программ для основной работы ей нужен набор модулей Perl), поэтому надежнее будет установить ее через менеджер пакетов дистрибутива.
-Знакомство с gscan2pdf
+===Знакомство с gscan2pdf===
 Запустите программу и нажмите на кнопку Scan [Сканировать], чтобы открыть окно Scan Options [Параметры сканирования]. Все заданные здесь параметры будут применяться при следующих запусках программы. Поэкспериментируйте с типом сканирования [Scan Type] и разрешением [Resolution], а также с различными движками OCR, чтобы понять, какой из них дает лучшие результаты. При этом удобнее сначала отключить OCR на вкладке Page Options [Параметры страницы] и только сканировать, а затем проверять различные настройки OCR на одной и той же отсканированной копии.
 Основные настройки на вкладке Scan Mode [Режим сканирования] – это режим сканирования [Mode] и разрешение [Resolution]. При сканировании в оттенках серого [Greyscale] затрачивается больше времени и получается файл большего размера по сравнению со штриховым рисунком [lineart]. Для сканирования в полноцветном формате нужно еще больше ресурсов, поэтому подумайте о том, что вам действительно нужно – нередко достаточно штрихового рисунка (черно-белого), к тому же он обычно лучше распознается в текст. Разрешение для хорошего распознавания обычно не должно быть менее 400 dpi.
 На вкладке Page Options [Параметры страницы] можно также задать количество сканируемых страниц. При подаче страниц в сканер по одной установите его в 1, если ваш сканер не такой, как мой – тот шумит достаточно, чтобы стало ясно: головка возвращается и пора вставлять лист бумаги, пока не началось новое сканирование. Отсканировав пару страниц в gscan2pdf, попробуйте различные движки распознавания текста. Запустите OCR из меню инструментов, выберите один из доступных движков OCR, и пусть он делает свое дело. Затем загляните на вкладку OCR Output [Результат распознавания] и оцените результат – чтобы прочесть текст, придется увеличить масштаб. Чтобы удалить текст и попробовать другой движок, выберите Edit > Clear OCR [Правка > Очистить текст]. В моей системе лучшие результаты дал GOCR, но это, видимо, в числе прочего зависит от качества сканируемых страниц.
 Выбрав подходящие настройки сканирования и распознавания, задайте их в окне Scan Documents [Сканировать документы] и двигайтесь дальше. В конце нажмите Save [Сохранить], чтобы сохранить файл. Лучший формат – PDF. Он читается почти на всех устройствах и будет читаться еще очень долго, к тому же текст внутри него доступен для индексирования поисковым системам. Сохранение может отнять больше времени, чем вы ожидали, потому что именно сейчас различные изображения и текстовые страницы объединяются в один файл.
-Уменьшение размера
+===Уменьшение размера===
 Разрешение для распознавания текста должно быть намного больше, чем для просмотра документа на экране, если только вы не намерены смаковать отдельные буквы, поэтому файлы, которые у вас получатся, будут увесистее, чем нужно. Для одного-двух файлов это некритично, но помножьте их на регулярные банковские отчеты и выписки с кредитных карт, коммунальные квитанции и другие бумаги за год – и вот ваш диск забит.

LXF163: Сканируем документы - История изменений

Olkol: /* Соз­дай­те ко­пии важ­ных до­ку­мен­тов с gscan2pdf */

Olkol: Новая страница: «Категория: Учебники Категория: OCR '''Учебник''' ==Соз­дай­те ко­пии важ­ных до­ку­м…»

Olkol: /* Создайте копии важных документов с gscan2pdf */

Olkol: Новая страница: «Категория: Учебники Категория: OCR '''Учебник''' ==Создайте копии важных докум…»