LXF163: Сканируем документы

Подписка на печатную версию: Весь 2015 год (12 номеров); Первое полугодие (6 номеров); Второе полугодие (6 номеров)

Подписка на электронную версию: Весь 2015 год (12 номеров); Первое полугодие (6 номеров); Второе полугодие (6 номеров)

Подшивки старых номеров журнала (печатные версии): Весь 2014 год (12 номеров); Первое полугодие (6 номеров); Второе полугодие (6 номеров)

Учебник

Создайте копии важных документов с gscan2pdf

Хранение: Все сканируем

Наш эксперт У Нейла Ботвика по компьютеру в каждой комнате, но он нипочем не скажет вам, где находится центральный сервер – по соображениям безопасности. > Задайте количество и формат сканируемых страниц, а также — нужно ли распознать текст сразу после сканирования.

В офисе Нейла Ботвика нет бумажных документов: он сканирует их с OCR и превращает в текстовые файлы, читаемые ПО индексации рабочего стола. Если верить ТВ-программам, которые я смотрел в детстве, сейчас у нас должны были быть летающие автомобили и офисы без бумажных документов. Автомобили пока не летают (разве что за рулем Брюс Уиллис), а бумаг в офисах меньше не стало. Было бы здорово избавиться от всех этих заявлений и прочих документов, приходящих к нам каждый день вместе с почтовым спамом, но в отличие от последнего многие из них подлежат хранению. На двух страницах нам не рассказать, как строят летающие автомобили, и мы поделимся простым способом избавиться от документов, сохранив их содержимое. Это не только экономит место, но оно и надежнее – ведь цифровые файлы можно сохранить в резервной копии (кто читал прошлый номер Linux Format, знает, чем я пользуюсь для этого).

По-простому, скормите документы сканеру и сохраните их в подходящем сжатом, но универсальном формате, например, PNG или PDF, дав им подходящее имя, чтобы потом легко их найти. Но есть и лучшее решение. К файлу изображения можно добавить информацию, доступную для чтения программой индексации рабочего стола, типа Meta Tracker в Gnome или Semantic Desktop или Recoll в KDE. Для этого нужно обработать отсканированную страницу программой оптического распознавания текста (OCR), чтобы получить текстовую версию документа. Эта текстовая версия хранится в файле вместе с изображением, обычно в формате PDF, и при просмотре документа вы видите отсканированное изображение, а поисковая машина рабочего стола находит текст и индексирует его.

Сделать это можно из командной строки: изображение со сканера заберет scanimage из SANE, текстовую версию создаст программа OCR – Cuneiform, GOCR или Tesseract, а объединит файлы ImageMagick. Все это можно собрать в скрипт и делать все одной командой, добавив поддержку сканеров с автоподачей или кнопку Push для сканирования следующей страницы. Можете сделать это сами или воспользуйтесь gscan2pdf, которая сделает это за вас, и добавьте в свой арсенал новую графическую программу. Исходный код имеется на http://gscan2pdf.sourceforge.net, но придется добывать довольно много зависимостей (это программа на Perl, и кроме клиентских программ для основной работы ей нужен набор модулей Perl), поэтому надежнее будет установить ее через менеджер пакетов дистрибутива.

Знакомство с gscan2pdf

Запустите программу и нажмите на кнопку Scan [Сканировать], чтобы открыть окно Scan Options [Параметры сканирования]. Все заданные здесь параметры будут применяться при следующих запусках программы. Поэкспериментируйте с типом сканирования [Scan Type] и разрешением [Resolution], а также с различными движками OCR, чтобы понять, какой из них дает лучшие результаты. При этом удобнее сначала отключить OCR на вкладке Page Options [Параметры страницы] и только сканировать, а затем проверять различные настройки OCR на одной и той же отсканированной копии.

Основные настройки на вкладке Scan Mode [Режим сканирования] – это режим сканирования [Mode] и разрешение [Resolution]. При сканировании в оттенках серого [Greyscale] затрачивается больше времени и получается файл большего размера по сравнению со штриховым рисунком [lineart]. Для сканирования в полноцветном формате нужно еще больше ресурсов, поэтому подумайте о том, что вам действительно нужно – нередко достаточно штрихового рисунка (черно-белого), к тому же он обычно лучше распознается в текст. Разрешение для хорошего распознавания обычно не должно быть менее 400 dpi.

Метамодернизм в позднем творчестве В.Г. Сорокина
ЛитРПГ - последняя отрыжка постмодерна
"Ричард III и семиотика"
3D-визуализация обложки Ridero создаем обложку книги при работе над самиздатом.
Архитектура метамодерна - говоря о современном искусстве, невозможно не поговорить об архитектуре. В данной статье будет отмечено несколько интересных принципов, характерных для построек "новой волны", столь притягательных и скандальных.
Литература
Метамодерн
Рокер-Прометей против изначального зла в «Песне про советскую милицию» Вени Дркина, Автор: Нина Ищенко, к.ф.н, член Союза Писателей ЛНР - перепубликация из журнала "Топос".
Как избавиться от комаров? Лучшие типы ловушек.
Что делать если роблокс вылетает на windows
Что делать, если ребенок смотрит порно?
Почему собака прыгает на людей при встрече?
Какое масло лить в Задний дифференциал (мост) Visco diff 38434AA050
О чем может рассказать хвост вашей кошки?
Верветки
Отчетность бюджетных учреждений при закупках по Закону № 223-ФЗ
Срок исковой давности как правильно рассчитать
Дмитрий Патрушев минсельхоз будет ли преемником Путина
Кто такой Владислав Поздняков? Что такое "Мужское Государство" и почему его признали экстремистским в России?
Как правильно выбрать машинное масло в Димитровграде?
Как стать богатым и знаменитым в России?
Почему фильм "Пипец" (Kick-Ass) стал популярен по всему миру?
Как стать мудрецом?
Как правильно установить FreeBSD
Как стать таким как Путин?
Где лучше жить - в Димитровграде или в Ульяновске?
Почему город Димитровград так называется?
Что такое метамодерн?
ВАЖНО! Временное ограничение движения автотранспортных средств в Димитровграде
Тарифы на электроэнергию для майнеров предложено повысить

На вкладке Page Options [Параметры страницы] можно также задать количество сканируемых страниц. При подаче страниц в сканер по одной установите его в 1, если ваш сканер не такой, как мой – тот шумит достаточно, чтобы стало ясно: головка возвращается и пора вставлять лист бумаги, пока не началось новое сканирование. Отсканировав пару страниц в gscan2pdf, попробуйте различные движки распознавания текста. Запустите OCR из меню инструментов, выберите один из доступных движков OCR, и пусть он делает свое дело. Затем загляните на вкладку OCR Output [Результат распознавания] и оцените результат – чтобы прочесть текст, придется увеличить масштаб. Чтобы удалить текст и попробовать другой движок, выберите Edit > Clear OCR [Правка > Очистить текст]. В моей системе лучшие результаты дал GOCR, но это, видимо, в числе прочего зависит от качества сканируемых страниц.

Выбрав подходящие настройки сканирования и распознавания, задайте их в окне Scan Documents [Сканировать документы] и двигайтесь дальше. В конце нажмите Save [Сохранить], чтобы сохранить файл. Лучший формат – PDF. Он читается почти на всех устройствах и будет читаться еще очень долго, к тому же текст внутри него доступен для индексирования поисковым системам. Сохранение может отнять больше времени, чем вы ожидали, потому что именно сейчас различные изображения и текстовые страницы объединяются в один файл.

Уменьшение размера

Разрешение для распознавания текста должно быть намного больше, чем для просмотра документа на экране, если только вы не намерены смаковать отдельные буквы, поэтому файлы, которые у вас получатся, будут увесистее, чем нужно. Для одного-двух файлов это некритично, но помножьте их на регулярные банковские отчеты и выписки с кредитных карт, коммунальные квитанции и другие бумаги за год – и вот ваш диск забит.

Сэкономить место можно разными способами – например, сканирование в штриховом рисунке вместо оттенков серого значительно уменьшит размер файлов. Банковский отчет в пять страниц, отсканированный с разрешением 600 dpi в оттенках серого, занял 29 МБ в PDF-файле; при сканировании в штриховом рисунке с тем же разрешением размер файла уменьшился до 1 МБ, и полезная информация вся уцелела. Формат файла тоже может иметь значение – gscan2pdf поддерживает формат DjVu (произносится «дежа вю»), предназначенный специально для архивации цифровых документов с высоким сжатием. В этом формате файл занял 5 МБ в оттенках серого и 300 КБ в штриховом рисунке – мощная экономия места! Более подробная информация о DjVu приведена во врезке.

Размер файлов можно уменьшить и после распознавания, и сделать это можно по-разному. Сохраняя в формате PDF, можно снизить число пикселей на дюйм [PPI] в окне PDF Save [Сохранение PDF]. Стандартное значение – 72; установив его в 36, мы вдвое снизим эффективное разрешение, уменьшив количество пикселей на 75 %. Другая альтернатива, единственная, если используется другой формат – изменить размер изображений во внешней программе. В gscan2pdf есть опция такого запуска, и по умолчанию берется программа GIMP.

Mogrifi-кация

Чтобы изменить размер изображения, можно добавить параметры к команде mogrify из ImageMagick. Mogrify очень похожа на более знакомую команду convert; главное отличие в том, что преобразованное сообщение она записывает не в новый файл, а в оригинал, и поэтому считается небезопасной. Но мы не дадим ей волю куражиться над нашими ценными кадрами, так что проблем не будет. Откройте окно Preferences [Свойства], нажмите на кнопку Add [Добавить] в разделе User-defined [Пользовательские утилиты] и введите команду

mogrify -resize 50% %i

Вас вряд ли удивит пояснение, что эта команда снизит разрешение до 50 % от исходного. Используйте любую достаточную для вас величину – с 25 % и исходным разрешением 600 dpi мы получим хорошо читаемый файл, значительно уменьшив его размер. Чтобы изменить размер страниц, нажмите кнопку Select All Pages [Выделить все страницы], затем запустите mogrify из меню Tools > User-defined [Утилиты > Пользовательские]. При экспериментах с настройками, такими как разрешение изображения и настройки распознавания, сохраняйте оригиналы сканированных изображений в PDF. Тогда, если вам почему-либо не понравятся результаты, их можно загрузить в gscan2pdf, не сканируя документ заново. |

LXF163: Сканируем документы

Создайте копии важных документов с gscan2pdf

Знакомство с gscan2pdf

Уменьшение размера

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты

Печать/экспорт

купить

подписаться

LXF163: Сканируем документы

Соз­дай­те ко­пии важ­ных до­ку­мен­тов с gscan2pdf

Зна­ком­ст­во с gscan2pdf

Умень­шение раз­ме­ра

Просмотры

Персональные инструменты

Навигация

Поиск

Инструменты

Печать/экспорт

купить

подписаться

Создайте копии важных документов с gscan2pdf

Знакомство с gscan2pdf

Уменьшение размера