Морфологический анализатор от НТЦ ПОИСК-ИТ

НТЦ ПОИСК-ИТ провела презентацию разработанного компанией морфологического анализатора.

В качестве источника достоверной информации о слове морфологический анализатор использует словарь. Если случается, что слово в словаре отсутствует, обработку проводят правила стемминга для автоматического выделения его основы.

Новый программный продукт представляет собой мощное средство, обеспечивающее решение следующих задач:
- Получение нормализованной формы слова;
- Получение всех морфологических форм слова;
- Получение информации о словоформе (часть речи, падеж и т.д.).

Для поддержки специфических предметных областей продукт обладает возможностью создания тематических словарей. На данный момент общий словарь содержит более 3 миллионов словоформ.

Особенностью продукта является наличие специальной версии для информационно-поисковых систем, отличающейся более высокой скоростью обработки (до 500 000 слов в секунду) и удобством интеграции.

Информационно-поисковая система с интегрированной поддержкой морфологии (имеющая в составе морфологический анализатор) обеспечивает, в частности, достижение следующих целей:
- Увеличение полноты поиска;
- Повышение точности поиска;
- Использование более простого и понятного пользовательского интерфейса;
- Снижение объема индексной информации.

Эффективность работы морфологического анализатора как элемента информационно-поисковой системы была на практике продемонстрирована на презентации при интеграции с программным продуктом Autonomy IDOL Server версии 7.x.x. В результате их совместного использования удалось повысить точность поиска более чем на 40%.

©1997-2024 Компьютерная газета