Вся правда об OCR
Любой современный деловой человек, постоянно работающий с документами, время от времени задает себе злободневный вопрос: зачем повторно набирать текст, если ранее это уже кто-то сделал? У многих пользователей такая регулярно повторяющаяся задача вызывает раздражение с примесью обиды за то, что приходится бессмысленно дублировать чью-то работу. Естественно, разработчики программного обеспечения не могли остаться равнодушными к столь типичной ситуации, ликвидация которой к тому же обещала солидные прибыли. Так были созданы системы, известные в России как системы оптического распознавания текста, а в англоговорящих странах - как OCR. Сегодня область применения программного обеспечения OCR существенно расширилась: вначале оно применялось преимущественно в финансово-банковской сфере, решая специфические задачи автоматизации по вводу анкетных и опросных данных, но сегодня OCR-программы применяются уже повсеместно для работы с любыми документами. Трудно переоценить значение OCR-систем, превратившихся в такой необходимый софт и для офисного, и для домашнего компьютера. Давайте сегодня кратко пройдемся по уже имеющимся на рынке OCR-системам и выделим главные и характерные для них особенности.
Поколения программ OCR
Перед тем как начать рассмотрение OCR-систем, давайте сначала хотя бы минимально приведем их классификацию для удобства дальнейшего рассмотрения. На данный момент выделяют OCR-системы (Optical character recognition, OCR), а также ICR-системы (Intelligent Character Recognition, ICR). Несколько упрощая суть отличий между ними, можно считать, что ICR-системы – это следующее поколение в развитии OCR-систем. В ICR гораздо более активно и серьезно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha). Третий, пока еще только теоретический уровень качества распознавания текста, это IWR (Intelligent word recognition, IWR), в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются связные фразы целиком.
Существует несколько систем, причисляющих себя к категории ICR. Это, прежде всего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим возможные альтернативы.
Известные отечественные продукты
ABBYY FineReader (finereader.abbyy.com) – один из лидеров рынка OCR, текущая его версия – 10. Он выпускается в версиях под все ОС Windows, а также под ОС Mac OS X и Linux. Доступна также ограниченная online-версия этого пакета для оптического распознавания. Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого, поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа. Российская компания ABBYY выпускает FineReader в 4 редакциях:
. Professional Edition — для индивидуальных пользователей или маленьких фирм;
. Corporate Edition — для сетевого использования, для маленьких и средних фирм и организаций;
. Site License Edition — для больших организаций, используются серверная и клиентская версии;
. Express Edition for Mac — для Macintosh-компьютеров, работающих под Mac OS X 10.4, 10.5, 10.6.
Заклятый конкурент FineReader, с которым его постоянно сравнивают, – OmniPage (www.nuance.com/omnipage) от компании Nuance Communications (бывшая ScanSoft). Во многом очень похож по возможностям на FineReader, в частности, как и его конкурент, имеет очень хорошую поддержку распознавания фотографий, полученных напрямик с цифровых камер, умеет конвертировать распознанный текст в форматы PDF, Microsoft Word и Excel, HTML, распознает более 120 языков. Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD. Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода. Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, так как их возможности во многом эквивалентны.
Переходим к следующему заметному игроку на рынке OCR, это продукт CuneiForm (www.cuneiform.ru) от российской компании Cognitive Technologies. Самый большой текущий минус этого вне всяких сомнений замечательного проекта, что еще в конце 2007 года Cognitive Technologies забросила свой продукт, после чего он никак не обновлялся и не развивался все это время. Сам движок этой OCR был выпущен под максимально свободной лицензией BSD в виде исходных текстов. Из-за специфики технологии распознавания этой программы, которую, кстати, многие эксперты считают тупиковой, CuneiForm в состоянии уверенно распознавать только печатные тексты, и не в состоянии работать с рукописными и декоративными текстами, то есть это – классическая OCR-система.
Этот ветеран OCR-рынка хотя и позволяет экспортировать результаты с сохранением форматирования, но так и не научился распознавать PDF, поддерживает всего 15 языков, но при этом неправильно распознает документы, текст которых одновременно содержит более одного языка (исключая стандартную пару русский-английский), не производит автоматического ориентирования текстовых строк и т.д. Конечно, при бесплатной «цене» на эти недостатки, наверное, можно закрыть глаза. Текущая и окончательная версия программы – 12. Написана она в виде кроссплатформенного приложения и может запускаться на Windows, Mac OS X, Linux. На данный момент стараниями сторонних разработчиков этот движок распространяется и развивается под названием OpenOCR (openocr.org), впрочем, в силу открытости ядра эту систему также использует множество других OCR-продуктов, например OCRFeeder.
Зарубежные продукты
Три других известных продукта, получившие малое распространение на территории СНГ в силу полного отсутствия представителей и маломальского маркетинга на этих бескрайних кириллических территориях, но известные на Западе и достойные хотя бы краткого упоминания, хотя бы потому, что так же позиционируют себя как продукты ICR-класса. В нише некириллического распознавания они вполне могут составить здоровую конкуренцию даже лидеру рынка - FineReader.
Первый их них — пакет Readiris (www.irislink.com) от компании I.R.I.S. Group —представляет собой очень серьезный OCR-продукт. Достаточно сказать, что начиная с сентября 2006 года технология от компании I.R.I.S. была лицензирована и используется в продуктах Adobe systems. Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке. Нужно заметить, что это стороннее решение “похоронило” свою собственную разработку Adobe OCR-движка, которая поставлялась многие годы в рамках решения Aсrobat Capture (www.adobe.com/products/acrcapture), и вот теперь новый OCR Adobe доступен в виде отдельного плагина в другие популярные продукты Acrobat. Последняя версия Readiris - 12, поддерживаются все версии Windows и MacOS X, всего поддерживается работа с более чем 120 языками.
Следующая крупная разработка от американской компании ExperVision, Inc (www.expervision.com) – TypeReader. Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе. Он распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (Document Imaging Management, DIM) и заканчивая участием во многих американских программах по автоматической обработке форм (Forms Processing Services, FPS). Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader. Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows, MacOS, Linux), в виде корпоративного web-сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.
Также из известных за рубежом продуктов стоит упомянуть LEADTools (www.leadtools.com/sdk/ocr) – это продвинутый ICR-движок, берущийся даже за самые сложные задачи, такие как распознавание анкет и рукописных текстов, и поставляемый сразу как SDK, что позволяет его удобно и органично встраивать сразу в любые свои продукты. Очень важная особенность именно этого решения, что здесь на каждый подключенный язык используются собственные словари для усиления точности проверки распознанных слов и выражений. Продукт доступен как в виде популярных ныне web-сервисов, так и в традиционном программном виде, в 32- и 64-битовых версиях для ОС Windows всех версий.
Бесплатные OCR-решения
Интересный собственный движок развивает и Google. Tesseract – это первоначально закрытый коммерческий OCR-движок, который создала Hewlett- Packard, работая над ним в промежутке между 1985 и 1995 годами. Но после закрытия проекта и прекращения его развития HP выпустило его код как open source в 2005 году. Разработку сразу подхватила Google, лицензируя уже свой продукт под свободной лицензией Apache. На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих. Нужно при этом четко представлять, что Tesseract – это классическая OCR для “сырой” обработки текста, то есть в нем нет ни графической оболочки для удобного управления процессом, ни многих других дополнительных функций. Это обычная консольная утилита (есть версии для Windows, MacOS, Linux), на вход которой подается изображение в формате TIFF, а на выходе Tesseract выдает “чистый текст”. При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме. Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например, известные OCRopus или OCRFeeder. Но все же хочется отметить, что качество бесплатного CuneiForm/OpenOCR немного превосходит показатели Tesseract, хотя во многом это полностью аналогичные продукты.
Кроме бесплатного Tesseract еще стоит упомянуть и SimpleOCR (www.simpleocr.com/). SimpleOCR очень достойное решение для OCR, и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract. Продукт бесплатен для любого некоммерческого использования и поставляется для Windows всех версий. Из заметных минусов – поддержка только двух языков: английского и французского.
Кроме традиционных десктопных бесплатных решений, существует множество альтернативных онлайновых сервисов, бесплатно предлагающих OCR и основанных на самых разных и экзотических движках, которые вы можете опробовать самостоятельно, благо сделать это очень удобно и просто, вот только некоторые из них: OnlineOCR (www.onlineocr.net), FreeOCR (www.free-ocr.com), OCRTerminal (www.ocrterminal.com), GoodOCR
(www.goodocr.com).
В заключение хочется отметить, что сейчас в мире существует более чем 100 самых различных OCR-движков, мы попытались рассмотреть и сравнить здесь лишь самые известные и качественные из них. Среди них существует также большое множество бесплатных OCR-программ любительского уровня, но их качество распознавания существенно ниже коммерческих аналогов. Для успешного решения бизнес-задач (и других серьезных повседневных задач) лучше ориентироваться на коммерческие системы ICR-класса, которые были рассмотрены в первой части этой статьи.
Игорь Савчук internetno.net
Поколения программ OCR
Перед тем как начать рассмотрение OCR-систем, давайте сначала хотя бы минимально приведем их классификацию для удобства дальнейшего рассмотрения. На данный момент выделяют OCR-системы (Optical character recognition, OCR), а также ICR-системы (Intelligent Character Recognition, ICR). Несколько упрощая суть отличий между ними, можно считать, что ICR-системы – это следующее поколение в развитии OCR-систем. В ICR гораздо более активно и серьезно используются возможности искусственного интеллекта, в частности, ICR-системы часто используются для распознавания рукописных текстов, декоративных непостоянных шрифтов, а также, как самый яркий пример, преодолению тех же систем по защите от спам-ботов – каптч (captcha). Третий, пока еще только теоретический уровень качества распознавания текста, это IWR (Intelligent word recognition, IWR), в которой считываются и распознаются не отдельные символы/точки, а считываются и распознаются связные фразы целиком.
Существует несколько систем, причисляющих себя к категории ICR. Это, прежде всего, FineReader, OmniPage Professional, Readiris Corporate, Type Reader Desktop. Давайте сравним их всех и рассмотрим возможные альтернативы.
Известные отечественные продукты
ABBYY FineReader (finereader.abbyy.com) – один из лидеров рынка OCR, текущая его версия – 10. Он выпускается в версиях под все ОС Windows, а также под ОС Mac OS X и Linux. Доступна также ограниченная online-версия этого пакета для оптического распознавания. Сейчас в FineReader поддерживаются около 190 международных языков, кроме этого, поддерживается восстановление не только текста исходного документа, но также и его структуры, что особенно полезно при работе с деловыми документами, где важна не только содержательная часть, но и внешняя сторона оформления и композиции документа. Российская компания ABBYY выпускает FineReader в 4 редакциях:
. Professional Edition — для индивидуальных пользователей или маленьких фирм;
. Corporate Edition — для сетевого использования, для маленьких и средних фирм и организаций;
. Site License Edition — для больших организаций, используются серверная и клиентская версии;
. Express Edition for Mac — для Macintosh-компьютеров, работающих под Mac OS X 10.4, 10.5, 10.6.
Заклятый конкурент FineReader, с которым его постоянно сравнивают, – OmniPage (www.nuance.com/omnipage) от компании Nuance Communications (бывшая ScanSoft). Во многом очень похож по возможностям на FineReader, в частности, как и его конкурент, имеет очень хорошую поддержку распознавания фотографий, полученных напрямик с цифровых камер, умеет конвертировать распознанный текст в форматы PDF, Microsoft Word и Excel, HTML, распознает более 120 языков. Текущая версия 17 поставляется как в версии для всех Windows-систем, так и в версиях для MacOS 9 и MacOS X, а также имеются версии для Linux и FreeBSD. Скорость распознавания OmniPage 17 примерно равна FineReader 10 – это одни из самых сравнительно медленных программ такого рода. Обе программы по своим возможностям часто сравниваются друг с другом и это неудивительно, так как их возможности во многом эквивалентны.
Переходим к следующему заметному игроку на рынке OCR, это продукт CuneiForm (www.cuneiform.ru) от российской компании Cognitive Technologies. Самый большой текущий минус этого вне всяких сомнений замечательного проекта, что еще в конце 2007 года Cognitive Technologies забросила свой продукт, после чего он никак не обновлялся и не развивался все это время. Сам движок этой OCR был выпущен под максимально свободной лицензией BSD в виде исходных текстов. Из-за специфики технологии распознавания этой программы, которую, кстати, многие эксперты считают тупиковой, CuneiForm в состоянии уверенно распознавать только печатные тексты, и не в состоянии работать с рукописными и декоративными текстами, то есть это – классическая OCR-система.
Этот ветеран OCR-рынка хотя и позволяет экспортировать результаты с сохранением форматирования, но так и не научился распознавать PDF, поддерживает всего 15 языков, но при этом неправильно распознает документы, текст которых одновременно содержит более одного языка (исключая стандартную пару русский-английский), не производит автоматического ориентирования текстовых строк и т.д. Конечно, при бесплатной «цене» на эти недостатки, наверное, можно закрыть глаза. Текущая и окончательная версия программы – 12. Написана она в виде кроссплатформенного приложения и может запускаться на Windows, Mac OS X, Linux. На данный момент стараниями сторонних разработчиков этот движок распространяется и развивается под названием OpenOCR (openocr.org), впрочем, в силу открытости ядра эту систему также использует множество других OCR-продуктов, например OCRFeeder.
Зарубежные продукты
Три других известных продукта, получившие малое распространение на территории СНГ в силу полного отсутствия представителей и маломальского маркетинга на этих бескрайних кириллических территориях, но известные на Западе и достойные хотя бы краткого упоминания, хотя бы потому, что так же позиционируют себя как продукты ICR-класса. В нише некириллического распознавания они вполне могут составить здоровую конкуренцию даже лидеру рынка - FineReader.
Первый их них — пакет Readiris (www.irislink.com) от компании I.R.I.S. Group —представляет собой очень серьезный OCR-продукт. Достаточно сказать, что начиная с сентября 2006 года технология от компании I.R.I.S. была лицензирована и используется в продуктах Adobe systems. Согласно внутреннему тестированию самой Adobe эта технология оказалось самой удачной из всех рассмотренных на рынке. Нужно заметить, что это стороннее решение “похоронило” свою собственную разработку Adobe OCR-движка, которая поставлялась многие годы в рамках решения Aсrobat Capture (www.adobe.com/products/acrcapture), и вот теперь новый OCR Adobe доступен в виде отдельного плагина в другие популярные продукты Acrobat. Последняя версия Readiris - 12, поддерживаются все версии Windows и MacOS X, всего поддерживается работа с более чем 120 языками.
Следующая крупная разработка от американской компании ExperVision, Inc (www.expervision.com) – TypeReader. Этот движок разработан в тесном сотрудничестве с Университетом Невада в Лас-Вегасе. Он распространяется по миру сразу во многих формах, начиная от интегрирования его в крупные западные системы документооборота (Document Imaging Management, DIM) и заканчивая участием во многих американских программах по автоматической обработке форм (Forms Processing Services, FPS). Например, в 2008 году газета Los Angeles Times после собственного тестирования ведущих мировых OCR выбрала для своего внутреннего использования как раз именно TypeReader. Хочется заметить, что данный продукт доступен как в традиционном десктопном исполнении (Windows, MacOS, Linux), в виде корпоративного web-сервиса, так и в форме облачного арендуемого приложения, способного обрабатывать любые объемы распознаваемого текста в очень короткие сроки.
Также из известных за рубежом продуктов стоит упомянуть LEADTools (www.leadtools.com/sdk/ocr) – это продвинутый ICR-движок, берущийся даже за самые сложные задачи, такие как распознавание анкет и рукописных текстов, и поставляемый сразу как SDK, что позволяет его удобно и органично встраивать сразу в любые свои продукты. Очень важная особенность именно этого решения, что здесь на каждый подключенный язык используются собственные словари для усиления точности проверки распознанных слов и выражений. Продукт доступен как в виде популярных ныне web-сервисов, так и в традиционном программном виде, в 32- и 64-битовых версиях для ОС Windows всех версий.
Бесплатные OCR-решения
Интересный собственный движок развивает и Google. Tesseract – это первоначально закрытый коммерческий OCR-движок, который создала Hewlett- Packard, работая над ним в промежутке между 1985 и 1995 годами. Но после закрытия проекта и прекращения его развития HP выпустило его код как open source в 2005 году. Разработку сразу подхватила Google, лицензируя уже свой продукт под свободной лицензией Apache. На данный момент Tesseract считается одним из самых точных и качественных бесплатных движков из всех существующих. Нужно при этом четко представлять, что Tesseract – это классическая OCR для “сырой” обработки текста, то есть в нем нет ни графической оболочки для удобного управления процессом, ни многих других дополнительных функций. Это обычная консольная утилита (есть версии для Windows, MacOS, Linux), на вход которой подается изображение в формате TIFF, а на выходе Tesseract выдает “чистый текст”. При этом никакого анализа компоновки текста или стилей оформления здесь не производится, это процесс распознавания в его простейшей форме. Для большего удобства работы, в качестве графического фронтенда, с этим движком можно использовать многие утилиты, например, известные OCRopus или OCRFeeder. Но все же хочется отметить, что качество бесплатного CuneiForm/OpenOCR немного превосходит показатели Tesseract, хотя во многом это полностью аналогичные продукты.
Кроме бесплатного Tesseract еще стоит упомянуть и SimpleOCR (www.simpleocr.com/). SimpleOCR очень достойное решение для OCR, и хотя оно не развивается уже с 2008 года, но оно как минимум ничем не уступает Tesseract. Продукт бесплатен для любого некоммерческого использования и поставляется для Windows всех версий. Из заметных минусов – поддержка только двух языков: английского и французского.
Кроме традиционных десктопных бесплатных решений, существует множество альтернативных онлайновых сервисов, бесплатно предлагающих OCR и основанных на самых разных и экзотических движках, которые вы можете опробовать самостоятельно, благо сделать это очень удобно и просто, вот только некоторые из них: OnlineOCR (www.onlineocr.net), FreeOCR (www.free-ocr.com), OCRTerminal (www.ocrterminal.com), GoodOCR
(www.goodocr.com).
В заключение хочется отметить, что сейчас в мире существует более чем 100 самых различных OCR-движков, мы попытались рассмотреть и сравнить здесь лишь самые известные и качественные из них. Среди них существует также большое множество бесплатных OCR-программ любительского уровня, но их качество распознавания существенно ниже коммерческих аналогов. Для успешного решения бизнес-задач (и других серьезных повседневных задач) лучше ориентироваться на коммерческие системы ICR-класса, которые были рассмотрены в первой части этой статьи.
Игорь Савчук internetno.net
Компьютерная газета. Статья была опубликована в номере 07 за 2011 год в рубрике soft