Поисковая система Nigma.ru обзавелась собственным индексом
29 ноября 2005 года разработчики интеллектуальной поисковой системы Nigma.ru объявили о начале работ над собственным индексом, который позволит избежать обращений к другим поисковым системам и, тем самым, существенно улучшит скорость и качество поиска Nigma.ru. Предполагается, что до конца 2005 года закончится альфа-тестирование алгоритма поиска и будет заказано необходимое оборудование, чтобы проиндексировать весь российский Интернет, т.е. более 1 миллиарда документов.
В данный момент около 25 тыс. наиболее популярных сайтов проиндексировано "в глубину" (по нескольку тысяч страниц с каждого сайта) и еще 200 тыс. - для полноты поиска. Владельцы сайтов, которые не попали в индекс, могут добавить свой сайт на специальной странице. Объем проиндексированной информации в тестовой базе составляет около 220 ГБ - это примерно 145 тыс. 500-страничных книг.
Протестировать поиск можно, сняв "галочки" других поисковых машин с главной страницы, оставив только "Nigma". В данный момент реализован поиск запросов с учетом близости слов, а также двухстадийный алгоритм морфологического поиска (на первой стадии ведется поиск точно тех словоформ, которые задал пользователь, а вторая стадия запускается только если на первой стадии найдено слишком мало документов). В ближайшее время будет расширен синтаксис запросов для поиска фраз (соответствующие алгоритмы уже реализованы).
В данный момент около 25 тыс. наиболее популярных сайтов проиндексировано "в глубину" (по нескольку тысяч страниц с каждого сайта) и еще 200 тыс. - для полноты поиска. Владельцы сайтов, которые не попали в индекс, могут добавить свой сайт на специальной странице. Объем проиндексированной информации в тестовой базе составляет около 220 ГБ - это примерно 145 тыс. 500-страничных книг.
Протестировать поиск можно, сняв "галочки" других поисковых машин с главной страницы, оставив только "Nigma". В данный момент реализован поиск запросов с учетом близости слов, а также двухстадийный алгоритм морфологического поиска (на первой стадии ведется поиск точно тех словоформ, которые задал пользователь, а вторая стадия запускается только если на первой стадии найдено слишком мало документов). В ближайшее время будет расширен синтаксис запросов для поиска фраз (соответствующие алгоритмы уже реализованы).