?

Log in

No account? Create an account

Next Entry

"Что написано пером,
Не вырубить топором"
…но можно Отсканировать
       Сам термин Сканирование известен практически всем. Но не многие знают, какое многообразие вариантов сканирования и последующих специфик обработки информации существует.
      При многочисленных вариантах и принципах Сканирования (3D сканирование, Биометрическое сканирование, Штрихкода сканирование и т.д. и т.п.) остановлюсь на описании Сканирования изображений с плоских носителей, то есть с бумаги. Очевидно, что если существует большое количество видов сканирования, то при Сканировании с бумажного носителя, существует большое количество как самих сканирующих устройств, так и принципов, способов, форматов сканирования, а также программных вариантов управления самим сканирующим устройством и обработки уже отсканированной информации.
      Подробно остановлюсь на описании того, чем собственно и занимаюсь – на качественном Сканировании с бумажных носителей, распознавании текстов и дальнейшей их верстки в зависимости от требований заказчика: как правило, в текстовом редакторе Word 2003, реже в верстальной программе InDesign. Отличие двух редакторов заключается в следующем. Текстовый редактор Word предоставляет удобную возможность работы с текстом: вносить в него правки, дополнения, изменения, различные корректировки, формировать в последствии файл PDF, пригодный как для печати (громоздкого размера), для качественного просмотра на PC (среднего размера), и для быстрого просмотра интернет-браузерами (минимального размера файла). Программа InDesign предназначена для верстки текстовой и графической информации, с последующей подготовкой к печати на различных носителях и создания интерактивного PDF файла для использования в PC, iPad и подобного рода устройствах. В настоящий момент, это наиболее перспективный вид верстки для создания интерактивных книг, журналов, проспектов, каталогов и различного рода рекламной информации с возможностью показа слайдов, сферических масштабируемых панорам 360 градусов, вплоть до видео роликов. Верстка в программе InDesign, в отличии от верстки в Word, характеризуется существенно большими временными затратами, качественно другими характеристиками компьютера и как следствие, стоимостью услуги.
      На сегодняшний день в моем арсенале следующие сканирующие устройства: Plustek OpticBook A300 формата А3, Plustek OpticBook 4600 формата А4, Fujitsu fj-5120C формата А4. Данные устройства подчинены основной задаче: оказанию услуг по качественному Сканированию цветных и монохромных изображений с бумажных носителей для последующей оцифровки информации. В 90% случаях это Сканирование книг с возможностью не расшивать сами книги и бережно обращаться с ними, не причиняя никаких дополнительных механических повреждений.
      Умышленно не стану перечислять многочисленные характеристики данных устройств. Для конечного заказчика и пользователя оцифрованной информации это не имеет никакого значения. Заказчик оценивает работу по конечному результату и главным критерием является "нравится – не нравится". Порой планка требований к Сканируемым материалам существенно повышается, после подробного ознакомления с конечным продуктом. Ведь все познается в сравнении. При большом количестве компаний, предлагающих данные услуги, существует и не меньшее количество вариантов качества конечной продукции. При использовании мной передовой техники от ведущих производителей Германии и Японии, имея за плечами большую практику и как следствие богатый опыт, конечный продукт гарантированно отличается стабильно высоким качеством.
      Итак, продолжим экскурс превращения бумажного носителя в цифровой вид и обратно. Я имею ввиду, что качественный завершенный процесс оцифровки предоставляет возможность последующей распечатки материала с минимальной потерей качества, а порой даже и превосходящий оригинал.
Каждая задача Сканирования и последующей оцифровки изображения требует индивидуального или отработанного для данной ситуации подхода. Подробно рассмотрим это на конкретных примерах.
Задача 1.
      Существует книга формата А3 (240х350мм.): Псалтырь, изданный более двухсот лет тому назад, сброшюрованный в кожаном переплете прилично потрепанный и обветшавший, напечатанный двумя красками: черной и красной. Бумага со временем приобрела ярко выраженный желто-кремовый оттенок с темными пятнами различного диаметра ‑ вкраплениями. Текст напечатан на Старославянском языке Буквицей. Иллюстрации в книге исполнены графической техникой штриховок и тонов (технический рисунок), для более натуральной передачи объема плоскому изображению. В те давние печатные времена другой техники еще не знали и не применяли.
Пример графической техники передачи штриховок и тонов.
Пример графической техники передачи штриховок и тонов.
Сканированное изображение с разрешением 600 точек на дюйм в монохромном режиме и увеличенное х2 кратно.
      Необходимо оцифровать данную книгу, не внося дополнительных повреждений и в без того обветшавший вариант. Надо учитывать и то обстоятельство, что при сканировании возможно проявление противоположной стороны печатной информации, так как сканеру приходится осуществлять засветку материала специальной мощной лампой с цветовой температурой, приближенной к солнечному свету. Это обусловлено необходимостью передать цвета, для восприятия глазом, максимально приближенными по яркости и интенсивности цвета к оригиналу. Соответственно лист с недостаточной плотностью или избыточной прозрачностью элементарно начинает просвечиваться. В нашем распоряжении имеется Сканер Fujitsu fj-5120C с возможностью двустороннего синхронного Сканирования листа посредством одновременной двусторонней подсветки, что в принципе исключает проявления изображения с обратной стороны носителя. Но эта модель Сканера захватывает лист только в автоматическом режиме. Соответственно все страницы книги должны быть разрезаны на отдельные листы. Это недопустимо в конкретной ситуации. Таким образом, для исполнения заказа нам подойдет только одна модель, максимально удовлетворяющая нашим требованиям, это Plustek OpticBook A300. Идеальное решение для качественного Сканирования книг под корешок. Единственным препятствием остается просвечивание листа, так как данная модель Сканера имеет планшетный принцип, что обусловлено подсветкой и Сканированием листа только с одной стороны. Выход из ситуации следующий: к обратной стороне Сканируемого листа будем подкладывать лист того же формата, только имеющий нейтральный цвет, приближенный к цвету отражаемых теней. То есть нам нужен нейтральный цветовой фон, наподобие мульти диапазонного белого шума. Таким образом, отраженное изображение будет как бы растворяться в собственной тени вперемешку с недостаточной прозрачностью листа.
      Итак, мы максимально продумали технику Сканирования. Остается с не меньшей тщательностью продумать и функции обработки Сканируемого изображения. Забегая несколько вперед уточню, что при неправильной настройки функции обработки Сканируемого изображения, приходилось повторно Сканировать книги, несмотря на их объем. Другого способа исправления ошибки нет. А это большие дополнительные временные затраты, обусловленные недостаточным вниманием. Исходя из вышесказанных первоначальных условий и характеристик данной книги, минимальное размытие (размазывание) растровой точки напечатанного изображения приведет к тому, что резкость и, как следствие, качество рисунков, выполненных штриховой графической техникой, сильно понизится. Соответственно эту дополнительную функцию мы не включаем. В других случаях, о чем будет рассказано позже, не включив размытие, мы получим цветные рисунки и фотографии малопригодные к качественному последующему рассмотрению и использованию. Остается небольшой, но существенный нюанс – несмотря на свой почтенный возраст, наш Псалтырь напечатан не только черной краской, но и красной. Кстати говоря, тогда и понятия не было о передаче цветовых оттенков триадными красками, то есть CMYK. Заранее смешивали краски, чтобы добиться определенного цвета и получали двухцветную печать, как в нашем случае: черную и красную. Поэтому нам ничего не остается, как настроить цветовой охват – цветное изображение. При этом даже черные буквы после Сканирования будут иметь не однородный черный, а составной черный. Причем цветовое пространство не CMYK, а RGB с более широким диапазоном передачи цветовых оттенков. Цветовое пространство RGB используется для просмотра на мониторах, то есть излучает свет, а пространство CMYK используется при печати на бумажных и различных носителях и в этом случае мы воспринимаем цвета в отражении (отраженный цвет). Несмотря на то, что книги часто бывают напечатаны только одной черной краской, я бы все равно поставил при Сканировании цветовой охват RGB. Оттенки и градации черного и серого передадутся гораздо глубже и реалистичней, максимально приближенно к оригиналу. В дальнейшем, если понадобится цветовая или тоновая коррекция изображения, нам это обстоятельство весьма пригодится.
С каким расширением сохранять изображения? Напомним о существующих и перечислим их: TIFF, BMP, JPG, PNG, GIF, PDF. Безаппеляционно скажу только то, что Сканы надо сохранять с расширением TIFF или TIF, без разницы, причем не стоит применять даже сжатие LZW. Как правило, я применяю, настройку разрешения в 300 точек на дюйм. Этого вполне достаточно. Понятно, что если требуется отчетливо Сканировать микролинии или микротекст, можно использовать и 600 точек и даже 1200. В погоне за высоким разрешением можно получить множество побочных негативных эффектов, будь то явно выраженная структура бумаги или при разрешении в 1200 точек искажения, внесенные аппаратно, то есть программой увеличения. Несмотря на заявленные характеристики в 2400 точек на дюйм, про бытовые сканеры даже и не говорю, все, что больше 600 точек происходит не за счет оптики, а за счет цифрового преобразования – цифрового увеличения. Для конкретной книги и данной ситуации, считаю такие настройки оптимальными. Для прецизионной индивидуальной настройки можно немного поэкспериментировать со световой яркостью, контрастностью и цветовой гаммой. Профессиональные программы управления Сканером, да и уже многие бытовые, предоставляют такую возможность. А уж если речь идет о редчайшей книге, то, как говорится: сам Бог велел.
Отсканированный фрагмент графического рисунка из Псалтыря с разрешением 600 точек на дюйм в режиме RGB, увеличенный х2 кратно.
Отсканированный фрагмент графического рисунка из Псалтыря с разрешением 600 точек на дюйм в режиме RGB, увеличенный х2 кратно.
      Осталось упомянуть, что дальнейшие манипуляции с текстом, то есть распознавание текста уже не в виде отсканированных рисунков, а полноценных редактируемых шрифтов, в данном случае будут невозможны. Не существует еще качественных отечественных программа распознавания текста. Поэтому используются иностранные программы. Данные программы изначально писались под качественное распознавание латинских букв. С кириллическими буквами они справляются вполне сносно, если не случается ситуации, когда на одной странице есть и латинские, и кириллические буквы. Естественно старославянский шрифт будет не под силу. Видимо не стояла остро еще в мире такая задача. Также не под силу будет и качественное распознавание и символов транскрипции. Набивать только вручную посимвольно: очень долго и очень кропотливо. Предложения по данной услуге встречаются редко и стоят весьма не дешево.
Пример кириллического шрифта, написанного буквицей.
Задача 2
Продолжение следует…
 

Comments