Морфологический анализатор от НТЦ ПОИСК-ИТ
НТЦ ПОИСК-ИТ провела презентацию разработанного компанией морфологического анализатора.
В качестве источника достоверной информации о слове морфологический анализатор использует словарь. Если случается, что слово в словаре отсутствует, обработку проводят правила стемминга для автоматического выделения его основы.
Новый программный продукт представляет собой мощное средство, обеспечивающее решение следующих задач:
- Получение нормализованной формы слова;
- Получение всех морфологических форм слова;
- Получение информации о словоформе (часть речи, падеж и т.д.).
Для поддержки специфических предметных областей продукт обладает возможностью создания тематических словарей. На данный момент общий словарь содержит более 3 миллионов словоформ.
Особенностью продукта является наличие специальной версии для информационно-поисковых систем, отличающейся более высокой скоростью обработки (до 500 000 слов в секунду) и удобством интеграции.
Информационно-поисковая система с интегрированной поддержкой морфологии (имеющая в составе морфологический анализатор) обеспечивает, в частности, достижение следующих целей:
- Увеличение полноты поиска;
- Повышение точности поиска;
- Использование более простого и понятного пользовательского интерфейса;
- Снижение объема индексной информации.
Эффективность работы морфологического анализатора как элемента информационно-поисковой системы была на практике продемонстрирована на презентации при интеграции с программным продуктом Autonomy IDOL Server версии 7.x.x. В результате их совместного использования удалось повысить точность поиска более чем на 40%.
В качестве источника достоверной информации о слове морфологический анализатор использует словарь. Если случается, что слово в словаре отсутствует, обработку проводят правила стемминга для автоматического выделения его основы.
Новый программный продукт представляет собой мощное средство, обеспечивающее решение следующих задач:
- Получение нормализованной формы слова;
- Получение всех морфологических форм слова;
- Получение информации о словоформе (часть речи, падеж и т.д.).
Для поддержки специфических предметных областей продукт обладает возможностью создания тематических словарей. На данный момент общий словарь содержит более 3 миллионов словоформ.
Особенностью продукта является наличие специальной версии для информационно-поисковых систем, отличающейся более высокой скоростью обработки (до 500 000 слов в секунду) и удобством интеграции.
Информационно-поисковая система с интегрированной поддержкой морфологии (имеющая в составе морфологический анализатор) обеспечивает, в частности, достижение следующих целей:
- Увеличение полноты поиска;
- Повышение точности поиска;
- Использование более простого и понятного пользовательского интерфейса;
- Снижение объема индексной информации.
Эффективность работы морфологического анализатора как элемента информационно-поисковой системы была на практике продемонстрирована на презентации при интеграции с программным продуктом Autonomy IDOL Server версии 7.x.x. В результате их совместного использования удалось повысить точность поиска более чем на 40%.