FineReader4.0: дюжина полезных советов пользователю

Окончание. Начало в "КГ" N№ 9

8. Управление сканером и процессом создания пакета

Следует выбрать режим Lineart с разрешением в 300 dpi, поскольку при меньшем разрешении распознавание будет некачественным, а увеличение до 600 dpi существенного улучшения в распознавании не принесет. Кстати, при увеличении разрешения в режиме Lineart в два раза, размер .TIF-файла возрастет в 2,25 раза и вместо 45 Мб после сканирования книги вы получите 100 Мб. Конечно, пострадает качество графических иллюстраций, но здесь есть возможность схитрить - при необходимости можно страницу с иллюстрацией отсканировать как Gray либо Color с разрешением 300-600 dpi, а затем опять вернуться к режиму Lineart. Такая "хитрость" возможна благодаря раздельному хранению в пакете файлов с отсканированными изображениями (отпугивающая формулировка названия пункта в опциях "Хранить в пакете только черно-белые изображения" не совсем точна, как можно догадаться из вышеизложенного - она относится к конкретной странице пакета). Пожалуй, в случае черно-белой иллюстрации оригинала лучше не выставлять режим Gray, а ограничиться увеличением разрешения в режиме Lineart до 600 dpi. Дело в том, что при размере файла в 100-200 Кб он обрабатывается при распознавании как графический блок практически мгновенно - за полсекунды-секунду, а 1 Мб будет распознаваться неприятно долго - минуту-полторы, плюс в оттенках серого "поползет" "грязь" оригинала. Изменение разрешения в режиме Lineart от 300 до 600 dpi на экране практически не проявится при масштабе 100%, но при масштабе 200% качество изображения с большим разрешением будет лучше.

Если система начнет, паче чаяния, "глючить" и выдавать инвертированное, к тому же, может быть, зеркальное и в оттенках серого изображение (редко, но случается в момент перехода от диалога TWAIN-драйвера сканера к управлению через опции самой системы), то следует удалить неверное изображение и попробовать еще раз отсканировать; если не поможет, то в опциях выставить флажок "Показывать диалог TWAIN-драйвера сканера" и делать каждое сканирование через него. Через какое-то время машина перестанет хулиганить и можно будет пользоваться опять опциями системы.

Влияют ли размеры выставленной зоны сканирования изображения в диалоге TWAIN-драйвера либо в опциях FineReader'а на размер создаваемого файла, определяет ли FineReader4.0 автоматически размеры сканируемого объекта?

Нет, FineReader4.0 не определяет автоматически размеры сканируемого объекта, но значительно на размер файла это не влияет - он получится лишь на 4-5% больше. Другое дело, что пустые поля будут учитываться при выставлении режима "Целый" для просмотра графического файла и какая-то доля масштаба выводимого в окне изображения может быть потеряна - будет выведено экранное изображение, скажем, раза в два меньшее, чем могло бы быть. Если указать максимальные размеры сканируемой зоны, то дольше будет работать и сканер - ведь ему придется просмотреть свое окошко на всю его длину, а не только лишь на длину указанной зоны. Поэтому в случае текстов в полэкрана сканера следует воспользоваться функцией Prescan TWAIN-диалога сканера и выставить приблизительные размеры зоны, в которую будет ложиться сканируемый текст.

В опциях не следует выбирать пункт "Запрашивать номер страницы перед началом сканирования" - это превратит автоматический процесс в полуавтоматический. Им надо пользоваться лишь при необходимости вставить нужные страницы вместо ошибочно отсканированных.

По той же причине не следует после настройки параметров сканера выводить и диалог TWAIN-драйвера сканера либо диалог настроек сканера.

Следует знать, что под кнопкой "Skan&Read" нет опций (имеется в виду кнопка-доля справа от большой кнопки собственно "Skan&Read") - их можно вызвать под кнопкой "Сканировать" либо правой клавишей мыши на поле панелей (о последней возможности обычно не вспоминают). И последнее - панель "Skan&Read" надо выбрать с крупными кнопками, чтобы случайно не ошибиться при их нажатии, кроме того большие кнопки снабжены кроме значков еще и понятными подписями.

В опциях следует сразу же сделать одну важную вещь - указать, что при сегментировании следует выбирать ориентацию страницы - в этой операции FineReader практически никогда не ошибается и нет необходимости "крутить" изображение вручную (при неверной ориентации текст распознан не будет). Впрочем, есть возможность ошибки выбора ориентации при автосегментации - если на обеих страницах сканированной книги будут размещены рисунки, то, не имея даже фрагмента текста, по которому система определяет ориентацию страницы, FineReader решит, что ориентация изображения правильна и не развернет его - здесь ему не хватит интеллекта. В таком случае следует вмешаться и развернуть страницу вручную.

По неопытности пользователь может сканировать каждую страницу книги отдельно - этого делать, понятно, не следует, система сама развернет изображение разворота книги и даже выровняет, если оригинал неровно положен на экран и строчки текста несколько отклоняются, плюс распознает каждую страницу отдельными блоками и в распознанном тексте поместит текст из первого блока сверху, второй - под ним, как и следует в оригинале.

9. Изменение нумерации страниц

Не бывает так, чтобы при большой работе не пропустить пару страничек или не распознать несколько страниц по два раза подряд. В последнем случае все просто - вызвать контексное меню и удалить лишнюю страницу (менее удобно удаление с клавиатуры клавишей Delete). Пугающая надпись "Удалить страницы" на самом деле означает, что будут удалены не все страницы, а только выделенные, если выделена одна, то только одна и будет удалена. При пропуске следует отсканировать пропущенную книжную страницу, которая автоматически получит последний номер и перенумеровать ее, опять же вызвав контекстное меню, присвоив соответствующий номер странице пакета. При перенумеровании страница будет вставлена на новое место, а все бывшие перед/за ней страницы "поднимутся"/"опустятся" на один номер вверх. При перенумеровании задействованные в операции страницы пакета не должны быть открыты - система в таком случае выдаст предупреждение и изменения нумерации не произойдет.

10. "Распознавание с обучением"

Несколько слов о "распознавании с обучением". Эта операция ведет к созданию библиотеки фонтов-эталонов. Безусловно, хорошо иметь такие библиотеки, но их создание требует времени. Вообще-то кириллические шрифты, использующиеся после реформы правописания в 1917 г., достаточно хорошо распознаются и без обучения. Что касается шрифтов с "ятями", то попытки научить их распознавать не привели к удовлетворительным результатам (существенное упущение разработчиков FineReader4.0). Также не очень удается научить систему распознавать некоторые достаточно распространенные довоенные русские шрифты, стилизованные под графику гражданского шрифта Петра I. Одним словом, всегда стоит задуматься, надо ли тратить время на создание специальных библиотек фонтов или же по-простому поправить текст при его вычитке. Получается, что выгоднее не создавать специальных библиотек эталонов.

Если же объем текста большой и распознается он с большим числом ошибок, то следует в опциях выбрать закладку "Распознавание". Поле-окошко "Распознавание с обучением", в котором надо выставить флажок, будет неактивно. Для его активизации надо нажать экранную кнопку "эталоны", затем кнопку "Новый эталон", ввести имя, закрыть окно, затем выбрать это имя как текущий пользовательский эталон и выставить флажок в активизировавшемся поле-окошке "Распознавание с обучением". При обучении может сложиться так, что часть выделенной системой буквы находится над прямоугольником, а для управления имеются только две кнопки "Влево" и "Вправо". Нажмите активную кнопку "Влево", и прямоугольник расширится вверх, захватывая пропущенный перед этим фрагмент буквы. Нелишним будет после обучения тут же отредактировать эталон, удаляя неверно описанные буквы. Да, надо предупредить, что готический шрифт не стоит и пробовать распознавать - такая задача FineReader'у не по зубам.

11. Экспорт

Если вы пользуетесь версией FineReader'а "Try&Buy", то расказанное ниже не для вас - в таком случае можно экспортировать информацию только постраничным копированием через буфер, что является чрезвычайно неудобным и стимулирует к покупке нормальной рабочей версии.

Ясно, что распознавание текста производится с какой-то целью. Одна из таких целей - машинный перевод с иностранного языка. Приблизительно при объеме 90 книжных страниц (с иллюстрациями) или около 3 Мб файла Word система перевода PROMT98 перестанет принимать информацию из FineReader'а. Возможность обойти - отправить распознанные тексты в текстовой файл, который значительно (в 12-15 раз) меньше файла с сохраненными картинками и форматированием, Word или Excel, а затем созданные ими файлы конвертировать в PROMT. Конвертация файла Word в PROMT при большом размере файла (свыше 1 Мб) может быть неудачной, а доступ к книге Excel возможен лишь через другие форматы, поскольку конвертация его формата в PROMT не поддерживается. Как альтернатива "хитрого маневра" - отправлять в PROMT порциями по 30-40 "страниц" FineReader'а, выделяя их мышкой в FineReader'е, а затем сливать образовавшиеся файлы с переводами опять в один другими средствами вне PROMT либо скопировать из всех окон PROMT импортированные тексты в одно окно в порядке их очередности, сохранив затем в файл только "результирующее" окно (последнее удобнее).

Попробуем в "живых" цифрах оценить размеры необходимого пространства для записи полученного перевода. Ведь часто приходится не только пользоваться полученным файлом на своем компьютере, но и передавать информацию по сети либо переносить на дискетах. Например, при передаче 45 страниц FineReader'а с общим объемом файлов около 7 Мб в Word97 получился .doc файл размером в 3 Мб, а его размер в текстовом формате составил только 230 Кб. В своем формате PROMT сохранил конвертированный из Word97 файл уже как 12 Мб или только перевод как 6 Мб. При работе с текстовым файлом в 400 Кб PROMT выдаст в своем формате .std файл размером в 2 Мб. Ясно, что при необходимости передачи информации следует создать отдельно два текстовых файла: исходного текста и перевода, что составит для 45 страниц FineReader'а всего лишь около 500 Кб. При таком подходе на двух дискетах в 1,44 Мб в архивированном виде может уместиться вся книга в 400 книжных страниц: на одной оригинал, на второй - перевод.

12. Удаление пакета

После завершения работы с распознаваемым текстом в FineReader и отправки текста в Word, Excel, PROMT (подразумевается с сохранением в них) либо в файл следует наведаться в размещенную на диске C: директорию Program Files, найти вложенную директорию FineReader4.0, в ней - Packets и удалить созданные там вашим кропотливым трудом десятки мегабайт в директории с соответствующим распознанному документу именем. В противном случае вы будете терять место на винчестере - при интенсивной работе с разпознаванием текстов вплоть до нескольких сотен мегабайт в неделю. Эти файлы в пакете бесполезны, вся информация уже имеется у вас в виде файлов Word, Excel, RTF либо просто текстового файла. Отсюда следует, что проверку распознанных тестов следует провести не откладывая, пользуясь подсказками FineReader4.0, который отметит цветом неуверенно распознанные символы.

Кстати, не надо откладывать проверку и по такой простой причине, что ее удобнее производить с использованием бумажного носителя, чем разглядывать в маленьком окошке под окном с распознанным текстом фрагмент текста в одну либо несколько строк - все знают как неудобна для чтения информация в стиле, скажем, "бегущей строки". Конечно, Word проверит ваш распознанный текст, если он английский или русский. А как быть, если вы распознали польский либо чешский текст? Выход предложен разработчиками - это надо делать с помощью PROMT. Работать с распознаваемыми текстами надо по принципу "кончил дело - гуляй смело", не оставляя накапливающуюся "незавершенку". Что важно - так тратится в итоге меньше времени на выполнение работы.

В качестве пометки: для удаления ненужных пакетов удобен FAR manager - он будет находиться в той же директории Program Files, при загрузке он покажет свои файлы в активной панели, нажатие Enter выведет на уровень вверх, а под ним и будет как раз директория FineReader4.0. Кроме того, FAR manager помнит указанный вашему компьютеру графический вьювер и загрузит его по клавише Enter для просмотра TIF-файла в пакете. Удобство удаления пакета не из FineReader'а (пункт меню "Сервис" - в нем "Удалить пакет"), а каким-либо внешним средством заключается в возможности обзора полного списка пакетов и в ощущении сохранения контроля над ситуацией. Набор этих достаточно простых советов позволит сэкономить вам какое-то время, не набивая "шишек" самостоятельно, не затрачивая усилий на экспериментальное выяснение особенностей работы системы. Успехов!

Иван Синчук


Компьютерная газета. Статья была опубликована в номере 10 за 2000 год в рубрике soft :: текст

©1997-2024 Компьютерная газета