Журнал LinuxFormat - перейти на главную

LXF87-88:QuiteInsane

Материал из Linuxformat
Перейти к: навигация, поиск


Первые шаги Советы для тех, кто только начинает знакомиться с Linux

Содержание

QuiteInsane: посканируем

Не только большой бизнес может извлечь доход из старого оборудования: Энди Ченнел намерен реабилитировать скромный сканер.

Сейчас, когда видеокамер понавстраивали чуть ли не в каждый утюг, сканеру угрожает забвение. И это позор, ибо сканер – весьма даровитое устройство, и в Linux есть для него немало отличных программ. На данном уроке мы исследуем приложение под названием QuiteInsane – это пакет на базе Qt/KDE, но не столь привязанный к рабочему столу, как, скажем, Kooka или GnomeScan. Мы также считаем, что он немного дружелюбнее к пользователю и, главное, прекрасно интегрируется как расширение в Gimp 2.0, то есть позволяет сканировать прямо в Gimp.

Используем это приложение для сканирования прошлых выпусков Linux Format, чтобы сослать физический журнал на чердак. Применим также систему распознавания текста (OCR) для перевода полученных изображений страниц в простой текстовый формат, неоценимый для хранения содержимого документов благодаря мизерности требований к памяти, и вдобавок допускающий редактирование; система пригодится и для извлечения текста из печатных источников – его можно потом добавлять в новые электронные документы, например, web-страницы.

Часть 1. Установка QuiteInsane

Рай для оборудования

Большинство изготовителей сканеров перешли на стандартный USB-интерфейс, отказавшись от параллельного или SCSI, так что дни мучений с драйверами практически позади. В базе поддерживаемых Sane устройств, например, имеется 70 сканеров только от Epson, и все, кроме четырех, отмечены как имеющие «хорошую» или «полную» поддержку. Среди исключений – самые последние модели Stylus (CX-5800 и StylusScan 2000), но похоже, что скоро и они будут поддерживаться. HP поживает несколько хуже, но и тут большинство устройств отмечены как поддерживаемые «хорошо» или «полностью».

Лучший способ получить поддерживаемый сканер – это выяснить все детали, а потом уж идти в магазин. Наиболее полный список поддерживаемых устройств находится на http://www.sane-project.org/sane-mfgs.html. Он постоянно обновляется, и в настоящее время содержит данные о 1273 сканерах, из которых 348 «хорошистов».

Как и многие другие приложения Linux, QuiteInsane – не более чем графическая оболочка консольного приложения, в данном случае – библиотек сканирования Sane и пакета распознавания символов GOCR. По старой доброй традиции «из вывески все ясно» Sane [по-английски, «здравый», – прим. пер.] расшифровывается как Scanner Access Now Easy (Доступ к сканеру отныне прост), и эта библиотека лежит в основе большинства Linux-приложений для сканирования. Поэтому возможности QuiteInsane [по-английски, «просто безумно», – прим. пер.] подобны имеющимся в других аналогичных приложениях.

Если вы используете ОС на основе Debian, например, Linspire, Xandros или Ubuntu (или сам Debian), то пакет QuiteInsane должен быть доступен по методу apt-get/Synaptic: достаточно открыть терминал и набрать:

sudo apt-get install quiteinsane

Введите пароль root и подивитесь на колдовство менеджера пакетов Debian. Если вы собираетесь использовать приложение из-под Gimp, повторите эти же манипуляции с пакетом gimp2.0-quiteInsane. Если вы пользуетесь Synaptic, следует найти указанные пакеты, а затем установить обычным способом. Если же вы предпочитаете RPM, то найдете подходящий пакет или при помощи стандартного менеджера пакетов (Yum, YaST и так далее) или посредством http://rpmfind.net или http://rpm.pbone.net. А те, кто готов расправить обретенные крылья, конечно же, могут выбрать сборку из исходных текстов.

На нескольких системах, которые я опробовал, запись для QuiteInsane почему-то не появлялась в меню; в таком случае вы можете запустить приложение, выбрав пункт Run Command [Выполнить команду] в меню K/Gnome и набрав quiteInsane. Можно также создать ярлык для этого приложения на рабочем столе или в меню – щелкните правой кнопкой мыши на рабочем столе, выберите Create New > Link To Application [Создать > Ссылка на приложение], задайте имя и добавьте ‘QuiteInsane’ в строку Command [Команда].

Часть 2. Введение в интерфейс QuiteInsane

Интерфейс QuiteInsane имеет много настроек, и поддерживает несколько режимов пользовательского интерфейса, включая вкладки, множественные окна и списки. На рисунке справа выбран режим отображения List [Список]: он выглядит наиболее «здравым» и отображает на экране больше информации, чем другие.

[В настройки включен даже модуль перевода элементов интерфейса, причем файл с переводом выбирается через стандартный диалог, так что любой пользователь может самостоятельно локализовать QuiteInsane под себя. Но учтите: приложение работает ТОЛЬКО при подключенном сканере. – прим. пер.]

QuiteInsane

  • 1 Опции сканирования [Scan Options]

Этот раздел предоставляет доступ к различным настройкам сканера. То, что вы здесь выберете, повлияет на весь пользовательский интерфейс, в частности, панели. Большинство операций прекрасно выполняются без перехода в Scan Mode [Режим Сканирования], но мы также кратко опишем другие доступные опции. Вкладка Advanced [Дополнительно] содержит опции для настройки скорости сканирования и глубины цвета. Производимые здесь изменения могут занять много времени и требуют множества тестовых сканирований. Это верно и для диалога Colour Correction [Коррекция цвета], позволяющего настроить баланс каналов RGB (обратитесь к нему, если ваш сканер постоянно искажает цвета). Набор опций вкладки Preview [Предварительный просмотр] для настройки предварительного сканирования зависит от вашего устройства; Geometry [Геометрия, Размещение] содержит предопределенные размеры изображений; и, наконец, вкладка Optional Equipment [Дополнительные устройства'] будет пуста, если ваш сканер не предусматривает автоподачи или слайд-адаптера.

Скорая помощь

Старайтесь выбирать разрешение в соответствии с работой – для использования в web достаточно 75 dpi.

  • 2 Режим Сканирования [Scan Mode]

Наш выбор здесь зависит от требуемого продукта. Сюда входят Scan Mode [Режим сканирования], Gamma Correction [Коррекция гаммы] и Resolution [Разрешение]. Режимов может быть по крайней мере три. Binary [Двоичный, Черно-белый] представит каждый пиксел результата белым либо черным; его можно использовать для работы с фотографиями, но разработан он был для сканирования и последующего распознавания букв. Grey ['Оттенки серого] создает изображение в оттенках серого, а Colour [Цветной] – в полном 24-битном цвете. Гамма-коррекция пригодится в случае, если ваш сканер выдает темные изображения: чем больше значение, тем ярче результат. И, наконец, разрешение – это количество пикселей на единицу длины. Наихудшее качество, 75 dpi [dot per inch, пикселей на дюйм], годится для изображений, публикуемых в Интернете, а наилучшее, 600 dpi – для распечатки фотографий. С подъ- емом по этой шкале размер получаемого файла стремительно растет.

  • 3 Статистика [Statistics]

Окно статистики сообщает, насколько большим будет изображение, как по количеству пикселей, так и по ожидаемому размеру файла. Но это только прикидка: если вы сохраните изображение в сжатом формате (типа JPEG или PNG), файл, скорее всего, будет поменьше.

  • 4 Тип изображения [Image Type]

Этот выпадающий список определяет некоторые стандартные опции, а также то, что мы собираемся делать с результатом. Опция Temporary/Internal viewer [Временный/встроенный просмотрщик] пригодится, если нужно вырезать кусок и вставить в новый документ; Single File [отдельный файл] сканирует и записывает результат в отдельный документ; OCR [Оптическое распознавание символов] оптимизировано для преобразования графики в текст, Copy/Print [Копировать/Печатать] шлет результат прямиком на принтер; Multiscan [Множественное сканирование] позволяет установить количество сканирований и может сочетаться с автоподачей листов или слайд-адаптером; а Save [Сохранить] сканирует сразу в файл.

  • 5 Параметры настройки [Configuration options]

Здесь можно найти опции для настройки интерфейса пользователя, открыть панель Предпросмотра, настроить ваше устройство, начать сканирование и использовать встроенный просмотрщик изображений.

  • 6 Предпросмотр [Start preview]

Эта кнопка запускает предварительное сканирование: на его основании можно более точно выбрать участок для финального сканирования.

  • 7 Параметры предпросмотра [Preview options]

Эти кнопки используются для увеличения и выбора частей изображения. Первая иконка увеличит выделенную область. Две иконки в середине – отмена и повтор действий, а четвертая – сброс настроек в предпросмотр полного изображения.

  • 8 Параметры выделения [Selection options]

Инструменты для автоматического выбора области сканирования; работают на основе цвета, так что цветную фотографию посреди большого белого поля приложение выделит, но более беспорядочный фон может вызвать проблемы.

Часть 3 Сканирование

Скорая помощь

Можно задать размер отсканированного изображения, например, потребовать, чтобы оно умещалось на CD, а настройки геометрии тогда будут подобраны автоматически.

Поместив на стекло сканера документ, первое, что вы должны сделать – получить предварительное изображение. Нажмите кнопку Preview [Предпросмотр]: будет выполнено быстрое сканирование, результат которого отобразится в правой части окна. Теперь используйте или прямоугольник выделения (со стандартной пунктирной рамкой) для захвата всего изображения, или мышь, чтобы вырезать его часть. Я сканирую изображение для web-сайта, поэтому выбираю Цветной режим сканирования и разрешение 75 dpi. Размер файла увеличивается с разрешением сканирования – полная журнальная страница формата А4 при 75 dpi потребует несколько сотен килобайт, но то же изображение при 600 dpi займет почти 50 МБ. Просто для сравнения: это почти размер целого дистрибутива Damn Small Linux. Зато когда в дело вступает сжатие в формат JPEG, файл становится более подъемным. Размер файла также зависит от используемого режима: так, черно-белое изображение будет намного меньше, чем в оттенках серого, которое в свою очередь значительно меньше того же в цвете.

Если вам необходима большая точность выбора выделенной области, нажмите первую иконку выделения (см. аннотацию 8), и эта область увеличится. Подогнав рамку, нажмите кнопку Scan [Сканировать] – начнется сканирование. По его завершении – в зависимости от устройства и настроек, может пройти несколько секунд или минут – откроется стандартное окно выбора файлов, и вы сможете сохранить изображение в выбранном вами формате и месте. Наилучший результат дает формат TIFF, сжимающий без потерь качества, но для более эффективного использования дисковой памяти выберите JPEG или PNG.

Итак, наше первое сканирование завершено; теперь можете открыть и обработать картинку в Gimp или в другом редакторе изображений.

OCR: оптическое распознавание символов

Далее попробуем отсканировать какой-нибудь текст из журнала, как я указывал во введении. Данное приложение, как и многие современные программы для сканирования, не ограничивается обработкой текста как одного длинного потока, вроде письма, а имеет инструменты для определения и захвата в должном порядке элементов достаточно сложной верстки. Во-первых, выберите режим OCR, используя выпадающий список меню Mode [Режим]. Скорее всего мы получим наилучший результат, выбрав опцию Binary [Черно-белое] в Scan Mode [Режим сканирования]; затем используем инструмент выделения и последующего увеличения текстового раздела. Увеличьте также разрешение до 300 dpi, обычно это дает наилучший результат.

LXF88_sane2.jpg

QuiteInsane отлично работает с блоками текста: каждая рамка для обозначения их границ имеет свой цвет.

Выберите область Image Type [Тип изображения] – откроется дополнительная панель с множеством цветных квадратиков по правому краю (см. рис. выше). Если вы щелкнете на первом (белом) квадратике и убедитесь, что рядом с ним появилась пометка, то в окне предпросмотра появится новая прямоугольная рамка. Окружите ею тот кусок текста, с которым хотите работать. Затем выберите второй цвет в списке (в моей версии, оранжевый) для создания другой рамки выбора; выберите второй кусок текста. Продолжайте делать это до тех пор, пока не будет выбран весь нужный текст, в правильном порядке: например, колонки журнальной статьи выбираются слева направо. Вы можете переразместить эти элементы, указав соответствующий цвет в списке и отрегулировав маркеры выделения. Выбрав все, что нужно, нажмите кнопку Scan. Каждое выделение будет отсканировано и обработано OCR-приложением, и в нашем случае результатом будут три документа, представленные на экране встроенного в QuiteInsane текстового редактора.

Распознавание символов – процесс неточный, и финальный текст может потребовать небольшого [а в случае текста на русском языке и большого, – прим.ред.] редактирования. В моем примере приложение слегка запуталось со смесью курсива и прямого текста в статье, и случайно проявились яркие цвета обратной стороны сканируемой страницы. Подобно другим OCR-приложениям, наше помещает на концах всех строк символ жесткого перевода строки. Результат, тем не менее, чего-то да стоит: пусть не обошлось без подправки, это все равно быстрее, чем перенабирать текст вручную.

Сканирование для архива

Теперь подымем планку: отсканируем серию документов в папку на жестком диске, и дадим им всем одинаковое имя, сопровождаемое личным номером. Если у вас есть автоподача, то многое выполнится автоматически, но у нас ее нет, и мы произведем настройку немного по-другому. Во-первых, установим режим сканирования и разрешение для архива; я выбрал Цветной и 75 dpi, потому что изображение будет только просматриваться на экране, но не печататься. Все остальное не меняем, и настраиваем рамку выбора для захвата всего стола (сканируемой области).

LXF88_sane3.jpg

Установите между сканированиями паузу, чтобы вы смогли перевернуть страницу.

Выберем в выпадающем списке режимов Mode множественное сканирование – Multiscan; откроется диалог настройки множественного сканирования (см. рис.), мы пойдем по нему сверху вниз. Сначала выберите желаемое число сканирований и, если у вас есть автоподача, поставьте отметку ADF. Например, для архивирования 128-страничного журнала потребуется 128 сканирований. Если автоподача у вас есть, но опцию ADF вы не пометили, приложение не будет знать, что ее надо использовать. Далее нужно выбрать Confirm Scan [Подтверждение сканирования] – это означает, что приложение будет делать паузу после каждого сканирования, что-бы мы могли перевернуть страницу журнала, а потом уж продолжать – и Save Scan [Сохранить сканируемое] для сохранения файла на диске. Вы можете сканировать и в оперативную память, но не очень понятно, зачем это может быть нужно.

Вы можете нажать кнопку Print [Печать], и каждое из полученных изображений будет сохранено и отправлено на принтер – получим аналог копировальной машины. Эта опция весьма удобна, если ваш принтер лазерный, но владельцы струйного принтера скоро обнаружат, что очередь печати растет, поскольку сканер работает где-то раз в 50 быстрее, чем такой принтер.

Упорядочите ваши новые данные

Теперь нужно настроить структуру файлов в Image List Settings [Настройки списка изображений]. Скорее всего, большинство опций будут вам знакомы. Например, можно использовать стандартное окно выбора файлов для выбора типа изображения, или указать место для файлов в строке Folder [Каталог]. Добавьте имя в строку Filename Template [шаблон имени файла], оно будет первой частью имени файлов. Где бы в этом приложении вы ни увидели иконку с гаечным ключом, это всегда указание на дополнительные опции, так что щелкайте на той, что стоит рядом с шаблоном имени файла, для определения оставшейся части имени, которая будет генерироваться при каждом сканировании.

LXF88_sane4.jpg

Иконка с гаечным ключом вызывает настраиваемые опции вроде этой.

Скорая помощь

Законы об авторском праве в каждой стране свои, но в Великобритании вы не можете воспроизводить материалы, защищенные авторским правом, без согласия правообладателя, кроме как для некоммерческих исследований или частного изучения.

Здесь мы настраиваем приращение для номеров сканируемых изображений. Поскольку мы собираемся дойти до десяти и хотим сохранить упорядочение, отметьте опцию Prepend Zeros [Предварять нулями], а затем установите 2 в Counter Width [Разрядность счетчика]. Это означает, что первое изображение будет помечено 01, второе 02, и так далее. Если мы сканируем более 100 документов, то для правильного размещения файлов разрядность счетчика следует установить равной 3. В результате получится серия файлов с именами по типу filename01.jpg, filename 02.jpg и так далее.

Теперь щелкните на иконке гаечного ключа под заголовком Image Type [Тип изображения] и укажите опции JPEG, например, качество (чем меньше значение, тем меньше файл и хуже качество изображения). Нажмите OK: к сканированию все готово; нажмите Scan, и первая страница будет отсканирована; вам предоставится возможность подтвердить ваше желание продолжать, что вы и сделаете, перевернув страницу. В результате получаем десять отсканированных и сохраненных страниц за пару минут. Это удобно, когда не нужно выделять отдельные части страницы (что требует индивидуального подхода) – но можно впоследствии перейти в Gimp и ликвидировать ненужные куски.

Пусть цифровые камеры привлекательнее, умнее и быстрее, но при помощи сканера вы всегда (по крайней мере, на данный момент) получите лучший результат при попытке распознать текст или сохранить страницы журнала или книги. Так что не давайте вашему сканеру расслабиться: заставьте его поработать! LXF

Встроимся в Gimp

Расширение Gimp для QuiteInsane – пример интеграции двух технологий. Как только вы установите расширение и запустите его из-под Gimp, используя File > Acquire > QuiteInsane > Scan, дальнейшие действия будут такими же, как и при отдельном запуске приложения. Отличие только в том, что после того, как вы все настроите и выполните сканирование, изображение автоматически загрузится в Gimp для редактирования или дальнейшей обработки, а QuiteInsane закроется.

Персональные инструменты
купить
подписаться
Яндекс.Метрика