Технология понимания документов от Cognitive Technologies
Cognitive Technologies на выставке Связь–Экспокомм 2009 представила новую технологию автоматического понимания содержания документов. Она базируется на когнитивных технологиях, целью которых служит - заставить информационные системы работать на основе принципов осуществления мыслительных процессов у человека. Когнитивные технологии, по мнению многих российских и зарубежных экспертов на сегодня являются самым перспективным направлением на мировом рынке инновационных технологий. Технология автоматического понимания содержания документов Cognitive Technologies позволяет не просто осуществлять выборку по ключевым словам, а понимать содержание документа, исходя из контекста, характера сочетания слов и комплексного анализа текста. Использование данной технологии способно практически полностью заменить человека на этапе рассмотрения и сортировки произвольных документов (не имеющих строгой формы и содержащих произвольный текст и графические элементы).
В качестве демонстрации работы технологии была выбрана ситуационная модель, воссоздающая условный механизм работы с входящими документами в Администрации президента РФ. В задачу информационной системы входило определить по содержанию документа его принадлежность к одному из направлений деятельности данного ведомства. Система в одинаковой степени справляется с обработкой многостраничных и одностраничных документов, автоматически определяя их начало и окончание. В случае многозначности документа он может быть отнесен сразу к нескольким направлениям. Если же содержание документа выходит за пределы стандартных направлений деятельности, то система автоматически создает новое направление.
Обработка (сканирование, распознавание и сортировка) пакета из 106 документов заняла у системы менее 1,5 минут. Для скоростного сканирования использовался сканер Panasonic KV-S4085CW.
В качестве демонстрации работы технологии была выбрана ситуационная модель, воссоздающая условный механизм работы с входящими документами в Администрации президента РФ. В задачу информационной системы входило определить по содержанию документа его принадлежность к одному из направлений деятельности данного ведомства. Система в одинаковой степени справляется с обработкой многостраничных и одностраничных документов, автоматически определяя их начало и окончание. В случае многозначности документа он может быть отнесен сразу к нескольким направлениям. Если же содержание документа выходит за пределы стандартных направлений деятельности, то система автоматически создает новое направление.
Обработка (сканирование, распознавание и сортировка) пакета из 106 документов заняла у системы менее 1,5 минут. Для скоростного сканирования использовался сканер Panasonic KV-S4085CW.