FineReader4.0: дюжина полезных советов пользователю

главная » статьи » 2000 » 09 » 05.03.2000‣soft :: текст

Изложенное ниже в виде коротких заметок-пунктов не имеет целью описывать возможности системы оптического распознавания текстов FineReader4.0, его достоинства и недостатки, а рассказать пользователю, как просто и рационально организовать свою работу, причем сказанное в значительной степени относится и к другим распространенным на сегодняшнем рынке системам распознавания.

На территории бывшего Советского Союза FineReader4.0 является, пожалуй, лидером среди систем-"распознавалок". Пользователь, не знающий универсальной аббревиатуры OCR, тем не менее, слышал и знает о FineReader'е - поэтому это название и вынесено в заглавие. Как и в любом современном пакете программ, в нем можно добиться желаемого действия двумя-тремя путями. Здесь не будет говориться о таких возможностях. При общем знакомстве пользователя с программами, работающими под Windows, он сможет сам найти альтернативные пути. Рассказанное ниже о FineReader4.0 - это то, что автор поставил бы для работы системы по умолчанию, рассчитывая на пользователя-новичка. Назначение данного текста - помочь избежать ошибок в начале освоения сканирования и пакета FineReader4.0 и ответить на стандартные вопросы пользователя, возникающие с неизбежностью, еще до их появления. Тем не менее, попробовать пользоваться системой оптического распознавания полезно до прочтения написанного здесь - тогда все рассказанное не будет казаться лишним и понятным само по себе.

1. Оригинал
Не следует делать карандашные пометки в тексте до сканирования. Особенно неприятны подчеркивания в самом тексте, поскольку это может привести к ошибкам при распознавании отдельных букв в местах подчеркиваний. Пометки на полях в виде черточек скорее всего не приведут к появлению лишних нераспознанных знаков в тексте, но увлекаться ими также не следует. В противном случае на устранение пометок на полях, распознанных как текст, возможно придется потратить время либо при редактировании, либо при ручном вмешательстве в сегментацию с целью оставления за границами автоматически выделенного блока ваших пометок.

Ксерокопии не следует сшивать до сканирования - это облегчит вашу работу. Сшитые листы сканируются плохо у места крепления книжного блока. Если же все-таки приходится иметь дело с ксерокопиями в переплете, то следует у корешка поместить груз, который прижмет лист плотно к экрану, для этого достаточно в случае мягкого переплета одного, а при твердом переплете - двух-трех томов Большой Советской Энциклопедии либо чего-нибудь равноценного по тяжести, т.е. весом в пять-шесть килограммов. Прижимать блок рукой следует лишь при крайней необходимости - ведь под ним стекло в легком пластмассовом корпусе. Кстати, груз следует ложить не на крышку сканера, а непосредственно на книжный блок - и крышка не будет повреждена, и быстрее получится. Неудобство - бьющий в глаза через "щель" у края яркий свет - легко устранимо: достаточно положить поверх щели на сканируемую книгу любую подвернувшуюся под руку брошюру либо лист плотной бумаги. И еще одна полезная информация: не надо бояться, что в месте "неприлегания" листа образуется что-то похожее на черную полосу ксерокса на стыке двух книжных страниц - при сканировании вы получите здесь белое фоновое изображение, которое, ясное дело, не будет потом воспринято системой распознавания как изображение при автосегментировании.

При работе на сканере с окном размером А4 с изданиями, текст страницы которых близок к формату Ф4, а общие размеры страницы превосходят формат А4, нет необходимости делать каждый лист в два приема - следует положить книгу так, чтобы ее поля выходили за рамки окна сканера, но текст попадал в рабочую зону - сканер имеет достаточную глубину резкости, чтобы получить четкое изображение и у неприлегающего к стеклу по краям рамки окна текста книги. Для удобства на корпусе сканера можно сделать карандашные пометки, чтобы каждый раз не "ловить" нужное положение листа заново.

Если издание ксерокопируется, то лучше, имея в виду будущее сканирование, уменьшить текст до формата А4 - даже уменьшение с А3 до А4 не препятствует качественному распознаванию.

2. Расчет временных затрат
Полезно выяснить, сколько времени требуется на одно распознавание с вашим сканером и с компьютером вашей конфигурации, чтобы представить, стоит ли затрачивать время на сканирование и распознавание текста. Для этого отсканируйте с десяток страниц и определите среднее время, затрачиваемое на одну страницу. Среднее - это не только время на работу техники, но и на укладывание и крепление книжного блока.

Возьмем реальный пример распознавания с помощью FineReader4.0. Сканирование и распознавание производилось со следующими компонентами: материнская плата Zida BX98, процессор Intell Celeron 300A, RAM 96 Mb, операционная система Windows 98, SCSI-сканер ScanExpres 12000 SP.

На один разворот книги потребовалось 210 секунд, соответственно, на книгу в 400 страниц или 200 сканирований потребуется 42 тыс. секунд или 700 минут, т.е. 11 часов 40 минут непрерывной работы (при отсутствии необходимости расставлять блоки вручную). Реально на книгу потребуется приблизительно 20 часов или 360 секунд на одно сканирование, т.е. 6 минут на одну операцию.

Во время сканирования не стоит без необходимости пользоваться текстовым редактором - поступающие сигналы с клавиатуры заметно замедлят процесс обмена данных. Лучше в это время поставить на CD какой-либо музыкальный диск, который будет вас развлекать или просмотреть телевизионную передачу.

3. Настройки панелей
Первое, что следует сделать при работе с системой оптического распознавания, - освоить из множества возможных удобные настройки. Начать работу в FineReader4.0 следует с настройки панелей. Для этого в пункте меню "Вид" выбрать "Панели инструментов" и из предложенного списка ("Skan&Read", "Стандартная", "Распознавание", "Форматирование", "Инструменты") выбрать три первые, причем проследить, чтобы они разместились в две строчки, а не в три. Лишние панели уменьшают размер рабочих окон. По сути дела, и в выбранных панелях нужны лишь некоторые кнопки. Выбранные настройки, как показывает опыт, во время следующих сеансов вряд ли будут изменены пользователем - система гибкая, но человек консервативен.

Панель "Распознавание" позволит качественно распознать машинописный и текст матричного принтера, если изменить в непоименованном поле "Авто"-режим, предназначенный для распознавания "типографских" текстов. В этой же панели необходимо в другом непоименованном поле выбрать язык документа - система не поймет английский текст при указанном русском языке (т.е. кириллической графике). Внизу списка "языков" (их всего 18), или, точнее, национальных алфавитов, имеется очень важный, но непонятный пунктик "Другие...". Выбор этого пункта позволяет не только увеличить список предлагаемых языков, но выбрать их сочетания при "кликании" мышкой с удержанием клавиши Ctrl (например, стоит выбрать немецкий, французский, литовский и польский одновременно при наличии в тексте ссылок на труды на этих языках с их специфическими национальными буквами). Надо только удерживать клавишу Ctrl и в момент нажатия кнопки "OK" - в противном случае будет выбран только один язык. Одно сочетание уже есть в списке языков - можно сразу выбрать русский и английский. Если речь идет не о смешанном тексте, то стоит выделить отдельным блоком фрагмент с иным "языком" и определить отдельно "язык" распознавания этого блока с помощью контекстного меню, вызываемого правой клавишей мышки.

Панель "Стандартная" нужна по сути из-за одной возможности - указания масштаба изображения в окнах. Для окна с отсканированным изображением лучше сразу выбрать в непоименованном поле панели пункт "целиком" - тогда появится возможность контролировать процесс сегментации, которая имеет смысл лишь при обзоре всего листа.

Панель "Распознавание" нужна для запуска сканирования с распознаванием (кнопка "Skan&Read") и для экспорта информации (кнопка "Мастер сохранения результатов"). Почему-то "запускать" сканирование с распознаванием с помощью горячей клавиши F9 менее удобно чем делать это с помощью мышки. На панели имеются еще кнопки "Сканировать", "Сегментировать", "Распознать", "Проверить". Отдельно не стоит сканировать и сегментировать по той простой причине, что быстрее подкорректировать сегментацию после комплексного распознавания и еще раз распознать, чем терять время оператора на выполнение всех трех операций отдельно. Увидев ошибки сегментации, можно, не дожидаясь конца распознавания, прервать его и подкорректировать сегментацию - это сэкономит десяток-другой секунд вашего времени. Если блок не получился прямоугольным, то образовавшиеся из-за случайных точек на полях текста оригинала "аппендиксы" лучше "выпрямить", подведя их границы к границам основного тела блока. В противном случае распознанный текст будет отформатирован с разной шириной абзаца. Оглавление будет нелишним объявить таблицей - тогда расположение цифр нумерации страниц книги сохранится в одну колонку. Полезно после завершения работы с текстом еще раз проверить блоки и запустить распознавание выделенных страниц, предварительно их выделив. Поскольку помощь человека системе не требуется, то можно сказать, что это действие вам ничего не стоит - в это время можно поработать над какой-либо не особенно забирающей ресурсы памяти задачей, например, пописать в текстовом редакторе. И о предпоследней кнопке - кнопке "Проверить". Опыт показал, что проверка "вручную" в окне с распознанным текстом с помощью мышки и клавиатуры быстрее, чем предлагаемый системой машинный контроль. При проверке стоит настроить через контекстное меню (пункт "Показывать свойства страницы") указатель страниц так, чтобы показывались отредактированные страницы - тогда легко найти место, на котором остановилось редактирование в прошлый сеанс.

4. "Горячие клавиши"
Только тогда работа необременительна, если часть функций оператор может выполнять с использованием "горячих клавиш".

Запомнить горячие клавиши в том виде, как их дает русский интерфейс, нет никакой возможности - пойди найди логику для мнемонического запоминания в сочетании Ctrl+Alt+ы, что должно обеспечить сохранение в файл. Иное дело, если запоминать Ctrl+Alt+s - ясно, что с буквы s начинается английское слово "save", означающее "сохранить". При работе с английским интерфейсом "горячие" клавиши запомнить гораздо легче. На полях FineReader4.0 может еще переходить и на немецкий интерфейс, но немецкий язык должен поддерживаться актуальной кодовой страницей вашего компьютера.

Обязательно надо знать клавиши для работы с блоками, вызываемые сочетаниями Alt и чисел от 1 до 6 (подсмотреть на первых порах можно в меню в пункте "Изображение" в разделе "Выбрать инструмент"), по крайней мере, две из них: Alt+1 - создать текстовой блок (по умолчанию всегда включен этот режим) и, очень важно, Alt+5 - перенумеровать блоки. Если придется добавить пропущенный в начале текста блок, то программа присвоит ему последний номер и он окажется в конце распознанного текста. Достаточно присвоить ему нужный номер, как автоматически будут подкорректированы все номера остальных блоков. Так же "жизненно необходимо" знать сочетания Ctrl+1 - сделать блок текстовым, Ctrl+2 - сделать блок табличным, и Ctrl+3 - сделать блок изображением. При автосегментации программа нет-нет да и ошибется, поэтому изредка ее приходится поправлять вручную. Отменять блок лучше привычной клавишей Delete. Новый блок создается с помощью левой клавиши мыши.

Есть и менее практичный способ: можно вытянуть кнопочки "инструментов" (через меню поэтапно выбрать "Вид" - "Панели инструментов" - "Инструменты") и осуществлять работу с помощью нажатия кнопок панели мышкой. В таком случае вы лишитесь помощи левой руки, которая может выбирать клавиши при работе с мышкой правой рукой - теперь все придется делать последовательно с помощью мышки одной правой рукой.

5. Окна
Важно правильно организовать окна, чтобы не работать вслепую (точнее - заглядывая через замочную скважину). Если в правом верхнем углу у вас в два ряда 6 стандартных кнопочек для управления окном Windows, то это уже нехорошо. Скорее всего вы видите сейчас только окно с распознанным текстом и узкую полосочку изображения под ним. Удобнее всего видеть окно с сегментированным изображением и справа небольшой фрагмент окна с распознанным текстом (туда его следует сдвинуть, прихватив мышкой). Для этого надо уменьшить окно с распознанным текстом, нажав на среднюю кнопку в нижнем ряду из группы, размещенной в правом углу экрана (кнопочная подсказка "Восстановить"). Тогда уже во время сканирования с распознаванием можно контролировать правильность сегментации, не затрачивая на это время впоследствии, и непосредственно по горячим следам вносить исправления.

6. Ориентация оригинала
Попробуем разобраться с ориентацией оригинала и выставляемыми значениями в настройках.

Удобнее всего воспользоваться диалогом TWAIN-драйвера и задать размеры, передвигая границы изображения мышкой, обрезав при этом ненужные широкие поля, но тогда придется им пользоваться при каждом сканировании, что добавляет к работе лишнюю операцию. Идя другим путем, можно в случае формата А5 в опциях выбрать "Настройки сканера", там задать формат А5 и выбрать альбомную ориентацию. Оригинал придется класть в правый угол сканера верхом к правому краю окна. Системе при таком расположении, кстати, не надо будет определять ориентацию и переворачивать полученное изображение. Как и в других случаях, можно схитрить - померять линейкой оригинал и в опциях выставить пользовательские размеры, набрав их в миллиметрах с клавиатуры, причем высота считается от правого края окна сканера, ширина - от верхнего, если за верх принять край, в направлении которого открывается крышка сканера (например, А5 - это 210х148 мм при книжной ориентации и 148х210 мм при альбомной ориентации).

7. Сохранение пакета
При сохранении пакета не стоит выбирать лукаво предлагаемое машиной имя "Packet1", поскольку через некоторое время, увидев список из двух десятков пакетов, отличающихся только номерами, найти достаточно быстро нужный можно будет уже лишь с помощью графического вьювера (например, ACDSee). Лучше дать пакету осмысленное имя - легче ориентироваться потом. Система будет создавать файлы с начальной частью имени, которое совпадет с именем пакета, в котором они хранятся. В конце имени файла будет добавлен четырехзначный номер (длина имени файлов пакета постоянная). Связанные между собой файлы изображений, результатов сегментирования и распознавания будут отличаться расширениями: например, Spufford0001.BOX - сегментирование, Spufford0001.FRF - распознавание, Spufford0001.TIF - изображение (здесь Spufford - имя пакета). Кроме названных типов файлов в пакете будут еще три файла: Spufford.opt, Spufford.PAC и Spufford.SCN, отвечающие за "работу" пакета. В случае необходимости пакет можно переименовать с помощью стандартных средств. Пакет с новым именем будет нормально открываться FineReader'ом, даже если внутри него останутся файлы со старыми именами. Переименовывать файлы вручную достаточно трудоемко, ведь при сканировании обычного формата книги в 400 книжных страниц образуется 600 файлов, поэтому делать этого не следует.

Да, и самое важное: распознав первую страницу новой работы, следует тут же сохранить пакет, присвоив ему имя. Об этом надо помнить - машина не подскажет. Тогда вам не будет страшно исчезновение питания в сети либо зависание машины, каждая отсканированная и распознанная страница тут же сохранится в виде трех файлов в своем пакете.

Иван Синчук, окончание следует

Компьютерная газета. Статья была опубликована в номере 09 за 2000 год в рубрике soft :: текст