LXF163: Сканируем документы
|
|
|
Учебник
Создайте копии важных документов с gscan2pdf
Хранение: Все сканируем
В офисе Нейла Ботвика нет бумажных документов: он сканирует их с OCR и превращает в текстовые файлы, читаемые ПО индексации рабочего стола. Если верить ТВ-программам, которые я смотрел в детстве, сейчас у нас должны были быть летающие автомобили и офисы без бумажных документов. Автомобили пока не летают (разве что за рулем Брюс Уиллис), а бумаг в офисах меньше не стало. Было бы здорово избавиться от всех этих заявлений и прочих документов, приходящих к нам каждый день вместе с почтовым спамом, но в отличие от последнего многие из них подлежат хранению. На двух страницах нам не рассказать, как строят летающие автомобили, и мы поделимся простым способом избавиться от документов, сохранив их содержимое. Это не только экономит место, но оно и надежнее – ведь цифровые файлы можно сохранить в резервной копии (кто читал прошлый номер Linux Format, знает, чем я пользуюсь для этого).
По-простому, скормите документы сканеру и сохраните их в подходящем сжатом, но универсальном формате, например, PNG или PDF, дав им подходящее имя, чтобы потом легко их найти. Но есть и лучшее решение. К файлу изображения можно добавить информацию, доступную для чтения программой индексации рабочего стола, типа Meta Tracker в Gnome или Semantic Desktop или Recoll в KDE. Для этого нужно обработать отсканированную страницу программой оптического распознавания текста (OCR), чтобы получить текстовую версию документа. Эта текстовая версия хранится в файле вместе с изображением, обычно в формате PDF, и при просмотре документа вы видите отсканированное изображение, а поисковая машина рабочего стола находит текст и индексирует его.
Сделать это можно из командной строки: изображение со сканера заберет scanimage из SANE, текстовую версию создаст программа OCR – Cuneiform, GOCR или Tesseract, а объединит файлы ImageMagick. Все это можно собрать в скрипт и делать все одной командой, добавив поддержку сканеров с автоподачей или кнопку Push для сканирования следующей страницы. Можете сделать это сами или воспользуйтесь gscan2pdf, которая сделает это за вас, и добавьте в свой арсенал новую графическую программу. Исходный код имеется на http://gscan2pdf.sourceforge.net, но придется добывать довольно много зависимостей (это программа на Perl, и кроме клиентских программ для основной работы ей нужен набор модулей Perl), поэтому надежнее будет установить ее через менеджер пакетов дистрибутива.
Знакомство с gscan2pdf
Запустите программу и нажмите на кнопку Scan [Сканировать], чтобы открыть окно Scan Options [Параметры сканирования]. Все заданные здесь параметры будут применяться при следующих запусках программы. Поэкспериментируйте с типом сканирования [Scan Type] и разрешением [Resolution], а также с различными движками OCR, чтобы понять, какой из них дает лучшие результаты. При этом удобнее сначала отключить OCR на вкладке Page Options [Параметры страницы] и только сканировать, а затем проверять различные настройки OCR на одной и той же отсканированной копии.
Основные настройки на вкладке Scan Mode [Режим сканирования] – это режим сканирования [Mode] и разрешение [Resolution]. При сканировании в оттенках серого [Greyscale] затрачивается больше времени и получается файл большего размера по сравнению со штриховым рисунком [lineart]. Для сканирования в полноцветном формате нужно еще больше ресурсов, поэтому подумайте о том, что вам действительно нужно – нередко достаточно штрихового рисунка (черно-белого), к тому же он обычно лучше распознается в текст. Разрешение для хорошего распознавания обычно не должно быть менее 400 dpi.
- Метамодернизм в позднем творчестве В.Г. Сорокина
- ЛитРПГ - последняя отрыжка постмодерна
- "Ричард III и семиотика"
- 3D-визуализация обложки Ridero создаем обложку книги при работе над самиздатом.
- Архитектура метамодерна - говоря о современном искусстве, невозможно не поговорить об архитектуре. В данной статье будет отмечено несколько интересных принципов, характерных для построек "новой волны", столь притягательных и скандальных.
- Литература
- Метамодерн
- Рокер-Прометей против изначального зла в «Песне про советскую милицию» Вени Дркина, Автор: Нина Ищенко, к.ф.н, член Союза Писателей ЛНР - перепубликация из журнала "Топос".
- Как избавиться от комаров? Лучшие типы ловушек.
- Что делать если роблокс вылетает на windows
- Что делать, если ребенок смотрит порно?
- Почему собака прыгает на людей при встрече?
- Какое масло лить в Задний дифференциал (мост) Visco diff 38434AA050
- О чем может рассказать хвост вашей кошки?
- Верветки
- Отчетность бюджетных учреждений при закупках по Закону № 223-ФЗ
- Срок исковой давности как правильно рассчитать
- Дмитрий Патрушев минсельхоз будет ли преемником Путина
- Кто такой Владислав Поздняков? Что такое "Мужское Государство" и почему его признали экстремистским в России?
- Как правильно выбрать машинное масло в Димитровграде?
- Как стать богатым и знаменитым в России?
- Почему фильм "Пипец" (Kick-Ass) стал популярен по всему миру?
- Как стать мудрецом?
- Как правильно установить FreeBSD
- Как стать таким как Путин?
- Где лучше жить - в Димитровграде или в Ульяновске?
- Почему город Димитровград так называется?
- Что такое метамодерн?
- ВАЖНО! Временное ограничение движения автотранспортных средств в Димитровграде
- Тарифы на электроэнергию для майнеров предложено повысить
На вкладке Page Options [Параметры страницы] можно также задать количество сканируемых страниц. При подаче страниц в сканер по одной установите его в 1, если ваш сканер не такой, как мой – тот шумит достаточно, чтобы стало ясно: головка возвращается и пора вставлять лист бумаги, пока не началось новое сканирование. Отсканировав пару страниц в gscan2pdf, попробуйте различные движки распознавания текста. Запустите OCR из меню инструментов, выберите один из доступных движков OCR, и пусть он делает свое дело. Затем загляните на вкладку OCR Output [Результат распознавания] и оцените результат – чтобы прочесть текст, придется увеличить масштаб. Чтобы удалить текст и попробовать другой движок, выберите Edit > Clear OCR [Правка > Очистить текст]. В моей системе лучшие результаты дал GOCR, но это, видимо, в числе прочего зависит от качества сканируемых страниц.
Выбрав подходящие настройки сканирования и распознавания, задайте их в окне Scan Documents [Сканировать документы] и двигайтесь дальше. В конце нажмите Save [Сохранить], чтобы сохранить файл. Лучший формат – PDF. Он читается почти на всех устройствах и будет читаться еще очень долго, к тому же текст внутри него доступен для индексирования поисковым системам. Сохранение может отнять больше времени, чем вы ожидали, потому что именно сейчас различные изображения и текстовые страницы объединяются в один файл.
Уменьшение размера
Разрешение для распознавания текста должно быть намного больше, чем для просмотра документа на экране, если только вы не намерены смаковать отдельные буквы, поэтому файлы, которые у вас получатся, будут увесистее, чем нужно. Для одного-двух файлов это некритично, но помножьте их на регулярные банковские отчеты и выписки с кредитных карт, коммунальные квитанции и другие бумаги за год – и вот ваш диск забит.
Сэкономить место можно разными способами – например, сканирование в штриховом рисунке вместо оттенков серого значительно уменьшит размер файлов. Банковский отчет в пять страниц, отсканированный с разрешением 600 dpi в оттенках серого, занял 29 МБ в PDF-файле; при сканировании в штриховом рисунке с тем же разрешением размер файла уменьшился до 1 МБ, и полезная информация вся уцелела. Формат файла тоже может иметь значение – gscan2pdf поддерживает формат DjVu (произносится «дежа вю»), предназначенный специально для архивации цифровых документов с высоким сжатием. В этом формате файл занял 5 МБ в оттенках серого и 300 КБ в штриховом рисунке – мощная экономия места! Более подробная информация о DjVu приведена во врезке.
Размер файлов можно уменьшить и после распознавания, и сделать это можно по-разному. Сохраняя в формате PDF, можно снизить число пикселей на дюйм [PPI] в окне PDF Save [Сохранение PDF]. Стандартное значение – 72; установив его в 36, мы вдвое снизим эффективное разрешение, уменьшив количество пикселей на 75 %. Другая альтернатива, единственная, если используется другой формат – изменить размер изображений во внешней программе. В gscan2pdf есть опция такого запуска, и по умолчанию берется программа GIMP.
Mogrifi-кация
Чтобы изменить размер изображения, можно добавить параметры к команде mogrify из ImageMagick. Mogrify очень похожа на более знакомую команду convert; главное отличие в том, что преобразованное сообщение она записывает не в новый файл, а в оригинал, и поэтому считается небезопасной. Но мы не дадим ей волю куражиться над нашими ценными кадрами, так что проблем не будет. Откройте окно Preferences [Свойства], нажмите на кнопку Add [Добавить] в разделе User-defined [Пользовательские утилиты] и введите команду
mogrify -resize 50% %i
Вас вряд ли удивит пояснение, что эта команда снизит разрешение до 50 % от исходного. Используйте любую достаточную для вас величину – с 25 % и исходным разрешением 600 dpi мы получим хорошо читаемый файл, значительно уменьшив его размер. Чтобы изменить размер страниц, нажмите кнопку Select All Pages [Выделить все страницы], затем запустите mogrify из меню Tools > User-defined [Утилиты > Пользовательские]. При экспериментах с настройками, такими как разрешение изображения и настройки распознавания, сохраняйте оригиналы сканированных изображений в PDF. Тогда, если вам почему-либо не понравятся результаты, их можно загрузить в gscan2pdf, не сканируя документ заново. |