Программы для распознавания текстовой информации
В последнее время большинство пользователей домашних ПК все чаще приобретают цифровые фотоаппараты, предпочитая цифру остальному. Желание перенести семейный фотоальбом с бумаги в электронную форму имеет под собой вескую основу — дольше хранится, не выцветает от солнца и в конечном итоге стоит дешевле. Однако как быть, если у вас накопилось множество простых фотографий на бумаге, а хотелось бы видеть их в электронном варианте. Или другой случай: у вас имеется огромный печатный материал для курсовой/дипломной работы, а времени на набор просто не хватает (как вариант — просто лень). В этом случае лучший выход — приобрести сканер. Но вот незадача: после сканирования текста собственно текстом-то он не становится, а становится простой картинкой. Как быть? В этом случае вам помогут специальные OCR-программы для распознавания текста. О них самих и особенностях их работы эта статья.
SimpleOCR
www.simpleocr.com
Freeware
Начнем мы, пожалуй, с небольшой бесплатной разработки. Программа SimpleOCR способна распознавать текст на английском, французском и голландском языках. К сожалению, поддержка кириллицы в ее опциях пока не значится, что вовсе не означает, что для нас она абсолютно бесполезна. Многие студенты, научные работники — вот ее контингент. Они по достоинству оценят ее абсолютную бесплатность и простоту интерфейса. Программа способна распознавать текст в форматах bmp, tiff, jpeg. При этом она сначала производит конвертацию изображения в монохромную форму (черно-белые тона), а затем происходит непосредственно распознавание текста. Следует отметить, что со своей задачей SimpleOCR справляется весьма неплохо и часто может послужить заменой альтернативным shareware-продуктам. Результат работы программы можно сохранить в файл формата rtf.
FineReader
www.abbyy.ru
Shareware
Эта программа известна многим — особенно тем, у кого есть сканер. Она часто входит в комплект сканера при продаже как бонус, и, как оказывается, не зря. FineReader на сегодня считается лидером, эталоном, если хотите, распознавания текста из графических документов в текстовые. Программа способна производить сканирование документа на сканере, обращаясь к его драйверу (что весьма удобно — не нужно открывать множество окон). Кроме того, FineReader способен общаться со сканером посредством собственных диалоговых окон, используя стандартные системные TWAIN-драйверы. В свойствах программы можно выбрать несколько режимов сканирования: True Color (24 бита), Grayscale (12 бит) и Black&White (черно-белый). Ваш выбор будет зависеть, скорее всего, от поставленной задачи. Оптимальным выбором для практически любой ситуации будет режим Grayscale. Программа способна обрабатывать отсканированное изображение в виде таблицы, простого текста и рисунка. При этом FineReader разбивает страницу на несколько отдельных модулей, которые распознаются самостоятельно. Процесс разбивки можно корректировать, изменяя параметры модулей. При распознавании в опциях FineReader следует указать язык для распознавания текста. Программа способна самостоятельно проверять орфографию и сохранять распознанную информацию в файлы форматов doc, pdf, html, sxw и др. Весь процесс — от сканирования и до распознавания — можно проводить самостоятельно вручную (для продвинутых пользователей) и с помощью мастера распознавания и перевода в автоматическом режиме (для новичков). Что тут скажешь? Перед нами — лидер распознавания (без преувеличения). Программа действительно хороша и стоит своих денег, однако мной был замечен один неприятный момент в ее работе: FineReader плохо распознает текст на белорусском языке. В этом он значительно проигрывает следующей рассматриваемой нами ОСR- разработке — программе CuneiForm.
CuneiForm
www.cuneiform.ru
Shareware
Итак, встречайте! Вот он, главный конкурент FineReader — пакет для распознавания текстовой информации CuneiForm. Эта программа также часто входит в комплект при покупке сканера и позволяет производить распознавание текстовой информации. Она перещеголяла FineReader не только по качеству распознавания белорусского языка, но и по качеству распознавания рукописного текста (CuneiForm используется во многих ведомствах США, в т.ч. в ФБР, Министерстве обороны и т.д.). Интерфейс CuneiForm заставляет влюбиться в себя практически с первого взгляда (по простоте и наглядности ему нет равных). В дополнение к отличному оформлению программа радует зачастую далеко не худшим качеством распознавания текста, чем тот же FineReader. Однако огрехи в работе все же есть: худшая система разбивки страницы на компоненты для раздельного распознавания, более низкое качество распознавания таблиц. Как и в предыдущей программе, имеется возможность выбора ручного режима для этапов сканирования и распознавания, но можно это сделать с помощью весьма просто организованного мастера. CuneiForm позволяет сохранять результаты своей работы в большинство форматов, поддерживаемых пакетом Microsoft Office и другими программами подобного назначения.
Recognita
www.recognita.hu
Shareware
Это продукт венгерских разработчиков. Потому и заточенность программы просматривается явно под английский язык и латинский шрифт. Однако при распознавании также поддерживается кириллица. Процесс распознавания русскоязычной информации программой можно назвать удовлетворительным, но никак не отличным. Вышеописанные утилиты с этим справляются куда как лучше. Однако с английским у Recognita проблем не возникает. Так же, как и ее соперники, программа способна производить разметку страницы, сканирование через драйвер сканера или с помощью TWAIN-драйверов, сохранять результат распознавания в виде файлов с расширением HTML, DOC, RTF. Как альтернатива Recognita может очень пригодиться простому пользователю в нелегком деле распознавания, но если вы профессионал — выбирайте что-нибудь поудобнее и посерьезнее.
Microsoft Office Document Imaging
www.scansoft.com
Shareware
Эта программа включена разработчиками Microsoft в состав всем известного продукта Office ХР. Потому с приобретением данного пакета вы автоматически приобретаете и эту утилиту (на территории России и СНГ вопрос о шароварности этой программы часто очень спорный:)). Microsoft Office Document Imaging — это облегченная версия программы Text Bridge фирмы Scansoft. Программа имеет незатейливый интерфейс и достаточно проста в освоении и использовании. По сравнению с вышеописанной утилитой Microsoft Office Document Imaging допускает гораздо меньше ошибок при распознавании русскоязычного текста, но все же не дотягивает по качеству до знаменитого Fine Reader. Программа постоянно норовит изменить форматирование исходного документа. Она так же, как и другие, разбивает исходный оригинал на блоки, но редактировать этот процесс, увы, невозможно. В качестве исходного формата графического документа Microsoft Office Document Imaging понимает только tiff, хотя для Windows XP это не проблема — графику всегда можно сконвертировать или просто перетащить изображение в окно программы. Но вот сохранить распознанный текст у вас вряд ли получится — придется экспортировать в Word. Если считать программу частью общего пакета, то все эти недостатки можно признать несущественными, да и распознавание текста у Microsoft Office Document Imaging все же на уровне. А учитывая цену на пиратскую продукцию, завозимую в наши края, эта программа — неплохая альтернатива вездесущим Fine Reader и CuneiForm, хотя по качеству работы местами и не дотягивает до этих знаменитых "монстров" распознавания.
Итог: Мы рассмотрели несколько наиболее знаменитых программ для распознавания текстовой информации из графических файлов. Наиболее универсальной, качественной и гибко настраиваемой на сегодня, без сомнения, можно назвать программу Fine Reader. Второй бы я поставил CuneiForm, а уж затем — все остальные, рассмотренные выше. Однако это совершенно не означает, что любая из описанных разработок не сможет справиться с распознаванием текста и не имеет права на жизнь. Напротив: одни из них сильны в качестве распознавания русскоязычного текста, другие — таблиц, третьи имеют простой и красивый интерфейс, а четвертые понемногу совмещают все вместе. А потому — выбор, как всегда, за вами!
Goldman, goldman2@mail.ru
SimpleOCR
www.simpleocr.com
Freeware
Начнем мы, пожалуй, с небольшой бесплатной разработки. Программа SimpleOCR способна распознавать текст на английском, французском и голландском языках. К сожалению, поддержка кириллицы в ее опциях пока не значится, что вовсе не означает, что для нас она абсолютно бесполезна. Многие студенты, научные работники — вот ее контингент. Они по достоинству оценят ее абсолютную бесплатность и простоту интерфейса. Программа способна распознавать текст в форматах bmp, tiff, jpeg. При этом она сначала производит конвертацию изображения в монохромную форму (черно-белые тона), а затем происходит непосредственно распознавание текста. Следует отметить, что со своей задачей SimpleOCR справляется весьма неплохо и часто может послужить заменой альтернативным shareware-продуктам. Результат работы программы можно сохранить в файл формата rtf.
FineReader
www.abbyy.ru
Shareware
Эта программа известна многим — особенно тем, у кого есть сканер. Она часто входит в комплект сканера при продаже как бонус, и, как оказывается, не зря. FineReader на сегодня считается лидером, эталоном, если хотите, распознавания текста из графических документов в текстовые. Программа способна производить сканирование документа на сканере, обращаясь к его драйверу (что весьма удобно — не нужно открывать множество окон). Кроме того, FineReader способен общаться со сканером посредством собственных диалоговых окон, используя стандартные системные TWAIN-драйверы. В свойствах программы можно выбрать несколько режимов сканирования: True Color (24 бита), Grayscale (12 бит) и Black&White (черно-белый). Ваш выбор будет зависеть, скорее всего, от поставленной задачи. Оптимальным выбором для практически любой ситуации будет режим Grayscale. Программа способна обрабатывать отсканированное изображение в виде таблицы, простого текста и рисунка. При этом FineReader разбивает страницу на несколько отдельных модулей, которые распознаются самостоятельно. Процесс разбивки можно корректировать, изменяя параметры модулей. При распознавании в опциях FineReader следует указать язык для распознавания текста. Программа способна самостоятельно проверять орфографию и сохранять распознанную информацию в файлы форматов doc, pdf, html, sxw и др. Весь процесс — от сканирования и до распознавания — можно проводить самостоятельно вручную (для продвинутых пользователей) и с помощью мастера распознавания и перевода в автоматическом режиме (для новичков). Что тут скажешь? Перед нами — лидер распознавания (без преувеличения). Программа действительно хороша и стоит своих денег, однако мной был замечен один неприятный момент в ее работе: FineReader плохо распознает текст на белорусском языке. В этом он значительно проигрывает следующей рассматриваемой нами ОСR- разработке — программе CuneiForm.
CuneiForm
www.cuneiform.ru
Shareware
Итак, встречайте! Вот он, главный конкурент FineReader — пакет для распознавания текстовой информации CuneiForm. Эта программа также часто входит в комплект при покупке сканера и позволяет производить распознавание текстовой информации. Она перещеголяла FineReader не только по качеству распознавания белорусского языка, но и по качеству распознавания рукописного текста (CuneiForm используется во многих ведомствах США, в т.ч. в ФБР, Министерстве обороны и т.д.). Интерфейс CuneiForm заставляет влюбиться в себя практически с первого взгляда (по простоте и наглядности ему нет равных). В дополнение к отличному оформлению программа радует зачастую далеко не худшим качеством распознавания текста, чем тот же FineReader. Однако огрехи в работе все же есть: худшая система разбивки страницы на компоненты для раздельного распознавания, более низкое качество распознавания таблиц. Как и в предыдущей программе, имеется возможность выбора ручного режима для этапов сканирования и распознавания, но можно это сделать с помощью весьма просто организованного мастера. CuneiForm позволяет сохранять результаты своей работы в большинство форматов, поддерживаемых пакетом Microsoft Office и другими программами подобного назначения.
Recognita
www.recognita.hu
Shareware
Это продукт венгерских разработчиков. Потому и заточенность программы просматривается явно под английский язык и латинский шрифт. Однако при распознавании также поддерживается кириллица. Процесс распознавания русскоязычной информации программой можно назвать удовлетворительным, но никак не отличным. Вышеописанные утилиты с этим справляются куда как лучше. Однако с английским у Recognita проблем не возникает. Так же, как и ее соперники, программа способна производить разметку страницы, сканирование через драйвер сканера или с помощью TWAIN-драйверов, сохранять результат распознавания в виде файлов с расширением HTML, DOC, RTF. Как альтернатива Recognita может очень пригодиться простому пользователю в нелегком деле распознавания, но если вы профессионал — выбирайте что-нибудь поудобнее и посерьезнее.
Microsoft Office Document Imaging
www.scansoft.com
Shareware
Эта программа включена разработчиками Microsoft в состав всем известного продукта Office ХР. Потому с приобретением данного пакета вы автоматически приобретаете и эту утилиту (на территории России и СНГ вопрос о шароварности этой программы часто очень спорный:)). Microsoft Office Document Imaging — это облегченная версия программы Text Bridge фирмы Scansoft. Программа имеет незатейливый интерфейс и достаточно проста в освоении и использовании. По сравнению с вышеописанной утилитой Microsoft Office Document Imaging допускает гораздо меньше ошибок при распознавании русскоязычного текста, но все же не дотягивает по качеству до знаменитого Fine Reader. Программа постоянно норовит изменить форматирование исходного документа. Она так же, как и другие, разбивает исходный оригинал на блоки, но редактировать этот процесс, увы, невозможно. В качестве исходного формата графического документа Microsoft Office Document Imaging понимает только tiff, хотя для Windows XP это не проблема — графику всегда можно сконвертировать или просто перетащить изображение в окно программы. Но вот сохранить распознанный текст у вас вряд ли получится — придется экспортировать в Word. Если считать программу частью общего пакета, то все эти недостатки можно признать несущественными, да и распознавание текста у Microsoft Office Document Imaging все же на уровне. А учитывая цену на пиратскую продукцию, завозимую в наши края, эта программа — неплохая альтернатива вездесущим Fine Reader и CuneiForm, хотя по качеству работы местами и не дотягивает до этих знаменитых "монстров" распознавания.
Итог: Мы рассмотрели несколько наиболее знаменитых программ для распознавания текстовой информации из графических файлов. Наиболее универсальной, качественной и гибко настраиваемой на сегодня, без сомнения, можно назвать программу Fine Reader. Второй бы я поставил CuneiForm, а уж затем — все остальные, рассмотренные выше. Однако это совершенно не означает, что любая из описанных разработок не сможет справиться с распознаванием текста и не имеет права на жизнь. Напротив: одни из них сильны в качестве распознавания русскоязычного текста, другие — таблиц, третьи имеют простой и красивый интерфейс, а четвертые понемногу совмещают все вместе. А потому — выбор, как всегда, за вами!
Goldman, goldman2@mail.ru
Компьютерная газета. Статья была опубликована в номере 15 за 2005 год в рубрике soft :: текст