Парад кластерных метапоисковиков
Проблема сортировки и дополнительной обработки результатов метапоиска стоит даже более остро, чем в случае отдельного поисковика. Неудивительно, что интерес к кластерным технологиям пришел и в эту сферу. Идея "скрестить" две технологии — метапоиск по интернет-ресурсам и механизмы кластеризации результатов — оказалась на удивление удачной. Во-первых, сохраняются преимущества метапоисковиков в части широты охвата ресурсов. Во-вторых, совершенно новыми красками начинает играть кластерная сортировка результатов такого поиска — ведь именно в такой ситуации проявляются сильные стороны данной технологии, которая нивелирует главные недостатки метапоиска для конечного пользователя — перегрузка информацией, проблемы ранжирования результатов и не очень богатые возможности уточнения запроса. Давайте пройдемся по современным лидерам кластерного метапоиска и посмотрим, какие преимущества они способны дать при поиске нужных сведений.
Vivisimo
vivisimo.com
Поисковик Vivisimo представляет собой демонстратор технологий — основной заработок его разработчиков состоит в лицензировании движка для других приложений. Работает Vivisimo как с поисковиками широкого профиля, так и со специализированными тематическими машинами. Присутствует поиск по крупным новостным лентам. Для широкого пользователя он интересен в первую очередь тем, что кластерная технология здесь представлена практически в чистом виде, не замутненном различными дополнительными примочками. В отличие от уже знакомого нам поисковика Ask.com, кластеры Vivisimo представлены не набором дополнительных ключевых слов, а в виде наглядного иерархического дерева результатов. По умолчанию показывается только часть дерева, и для того, чтобы увидеть все разделы, потребуется щелкнуть по ссылке More, расположенной под списком. Доступна опция быстрого поиска в кластерах (Find in clusters). Она по сути своей работает на уточнение запроса. Если внести в это поле дополнительное ключевое слово, то все кластеры в дереве, в которых встречается данный термин, получат цветную подсветку. Есть несколько интересных находок и в интерфейсе поисковика. В аннотациях к ссылкам показывается традиционная для метапоисковиков строка, сообщающая, в чьих именно базах был найден данный документ, а также его рейтинг в этих системах. Удобная особенность Vivisimo — предварительный просмотр найденных страниц в небольшом окошке прямо на странице результатов поиска, рядом со ссылками (кнопка preview). Это значит, что вам не придется уходить с поисковика или бороться с толпой новых окон браузера в попытке бросить взгляд на найденные сайты.
Страница расширенного поиска предлагает выбор баз данных, по которым будет вестись поиск, а также такие служебные инструменты, как ограничение по языкам документов (что приятно, в списке присутствует не только русский, но также и белорусский и украинский), "семейный" фильтр и состав дополнительной информации о найденной ссылке, выводимой в списке результатов. Отметим, что Vivisimo отрабатывает запросы на русском, выделяя довольно корректные кластеры. Правда, результаты такого поиска не будут полными, поскольку система практически ничего не знает о русских поисковиках. Пользователям браузера Firefox предлагается скачать бесплатную панель поиска Vivisimo. Таким образом, иерархическая организация результатов серьезно сокращает время, затрачиваемое на знакомство с результатами. Vivisimo выглядит очень даже неплохим выбором при поиске по широким темам. В "минус" запишем игнорирование русскоязычных поисковиков, а также отсутствие поиска изображений и других не-HTML-документов.
Clusty
clusty.com
В основу этого метапоисковика положен движок Vivisimo, к которому, как и полагается в случае полноценного решения, был добавлен ряд новых функций. Стартовал Clusty в 2004 году. Среди доступных баз данных — MSN, Ask, Gigablast, Wisenut, Looksmart и Open Directory. Как и положено близкому родственнику Vivisimo, Clusty выводит результаты поиска организованными в тематические категории-кластеры. Кроме общей кластеризации по собственному алгоритму системы, можно "заказать" кластерный поиск по определенному источнику или URL. Что касается языка запросов, то Clusty понимает операторы AND, OR, NOT и NEAR. Можно также вести поиск по фразе, взятой в кавычки, правда, последняя возможность является недокументированной. Используя операторы, стоит учесть, что Clusty отправит их только на те поисковики, которые поддерживают их использование. Сразу отметим более широкий выбор направлений поиска. Кроме веб-документов, доступен метапоиск по изображениям и новостям, а также блогам. В настройках поиска выставляется количество выводимых по умолчанию кластеров, набор инструментов для работы с найденными ссылками и другие служебные настройки. Кроме того, можно выбрать конкретные поисковики, на которые уйдет ваш запрос. Интересная функция Clusty — выбор основы для кластеризации. Проводится он с помощью выпадающего меню над деревом кластеров. Доступны три варианта: кластеризация по теме, источнику и URL. Если первый режим не требует пояснений, то второй позволяет быстро сгруппировать результаты по нашедшим их поисковикам, а третий — по зонам (.com, .net, .org и т.д.). Просмотрев найденные результаты, можно сразу отправиться на оказавшиеся самыми полезными поисковики. К сожалению, среди них вы не найдете Google и Yahoo, что стоит признать существенным недостатком Clusty. Как и Vivisimo, Clusty предлагает панель инструментов для Firefox. Доступна и панель для Internet Explorer, так что его сторонники в этом случае не должны чувствовать себя обделенными.
ez2Find
ez2find.com
Как и рассмотренные выше метапоисковики, данный ресурс использует кластеризацию для обработки собранных ссылок, при этом заявляя о поддержке поиска по базам Google и Yahoo. Метапоиск ведется по веб-страницам, каталогам, изображениям, новостям, коммерческим предложениям и энциклопедиям. Среди последних — Encarta, Wikipedia, InfoPlease, Encyclopedia, XReferer и Bartleby. В каждом направлении поиска можно выбрать собственный набор поисковиков, на который уйдет ваш запрос. Выбрать среди них нужные можно просто проставив галочки в предлагаемом списке. Это дает одну любопытную возможность — отметив какой-нибудь один поисковик, вы, по сути, получите для него внешний "кластерный" интерфейс. Ez2Find удачно работает с локальными поисковиками. На стартовой странице ресурса присутствует раздел Local, в котором можно быстро перейти к поиску по местным поисковикам, каталогам и другим подобным ресурсам. Эта функция ez2Find поистине уникальна и существенно экономит время при поиске редкой информации в не самых популярных национальных сегментах Интернета. В отличие от Vivisimo с его иерархическим деревом, ez2Find показывает кластеры единым одноуровневым списком. Уточнить запрос можно только один раз, после чего дополнительная панель кластеров становится недоступной. Над основным списком ссылок на странице выводится небольшая панель, на которой можно выбрать используемые поисковики. Если один ресурс нашли сразу несколько поисковиков, то Ez2Find показывает рядом со ссылкой несколько звездочек — по числу нашедших ее серверов. Под общим списком дается статистика обработки вашего запроса различными поисковиками. Из дополнительных сервисов можно отметить доступ к справочным данным о найденных сайтах (используется Alexia) и онлайновому переводчику веб-страниц (основан на Systran). Результаты перевода, как это пока свойственно машинным переводчикам, во многом оставляют желать лучшего, однако общий смысл понять можно — этакая приятная мелочь.
Nigma
www.nigma.ru
Российский кластерный метапоисковик Nigma можно назвать достойным ответом западным ресурсам. Это разработка Московского государственного университета им. М.В. Ломоносова. Предварительная версия сервиса была запущена в начале 2005 г. Несмотря на все еще ведущуюся доработку, Nigma уже сейчас демонстрирует весьма достойный результат. Кстати говоря, авторы системы обещают открыть ее коды после того, как будет получена полностью стабильная версия системы. Nigma опрашивает Google, Yahoo, Altavista, MSN, Yandex и Rambler, обеспечивая тем самым замечательный охват источников. В Nigma заложен ряд интереснейших решений, которые заслуживают отдельного разговора, поэтому сейчас ограничимся только самым вкусным.
Во-первых, поисковикам отправляются запросы не только по точно заданному вами слову, но и по его автоматически сгенерированным формам, что существенно увеличивает количество найденных страниц. Работа этого механизма видна в служебной информации о ссылке: если документ был найден без морфологического преобразования запроса, то там будет просто указан использованный поисковик и рейтинг страницы. Если же была найдена сгенерированная словоформа, то после названия поисковика будет стоять буква "М". Поскольку проект разработан в России, этот механизм работает весьма корректно. Во-вторых, для обработки массива ссылок Nigma использует собственный алгоритм кластеризации, опять-таки, оптимизированный с учетом особенностей русского языка. Результат получается в лучших традициях уже рассмотренных зарубежных метапоисковиков. Отметим, что степень детализации кластеров здесь довольно высока, поэтому примененные в Nigma иерархические схемы их демонстрации здесь очень даже кстати. Таких схем две. Первая реализована посредством обычного HTML-интерфейса — кластеры показываются иерархическим деревом сбоку от списка ссылок. Вторая, на сегодняшний день экспериментальная, построена на AJAX и выглядит куда интересней. Нам предлагается особая панель, на которой выводятся названия выделенных кластеров. При щелчке на конкретном кластере, во-первых, загружается список относящихся к нему ссылок. Кроме того, на панели кластеров появляются связанные с активным кластером категории. Работа в таком режиме потребует некоторого привыкания, но затем становится очень удобной и на редкость наглядной. Как и подавляющее большинство уважающих себя поисковых ресурсов, Nigma предлагает загрузить собственную специализированную панель для браузера Firefox. Короче говоря, если у вас возникнет желание попробовать кластеризацию для поиска документов на русском языке, обязательно обратите самое серьезное внимание на этот некоммерческий проект.
Подведем некоторые итоги. Комбинация метапоиска и кластеризации дает весьма интересные результаты — эти технологии удачно дополняют друг друга, выгодно подчеркивая свои сильные стороны и уменьшая недостатки. Что радует, конкретные реализации данной схемы не подкачали. Vivisimo/Clusty и Easy2Find представляют собой удачные инструменты, заточенные в первую очередь под исследования широких тем. Весьма достойно выглядит российский поисковик Nigma. Результаты при этом достигаются гораздо быстрее, чем при использовании классических поисковиков.
Алексей Кутовенко, alteridem@tut.by
Vivisimo
vivisimo.com
Поисковик Vivisimo представляет собой демонстратор технологий — основной заработок его разработчиков состоит в лицензировании движка для других приложений. Работает Vivisimo как с поисковиками широкого профиля, так и со специализированными тематическими машинами. Присутствует поиск по крупным новостным лентам. Для широкого пользователя он интересен в первую очередь тем, что кластерная технология здесь представлена практически в чистом виде, не замутненном различными дополнительными примочками. В отличие от уже знакомого нам поисковика Ask.com, кластеры Vivisimo представлены не набором дополнительных ключевых слов, а в виде наглядного иерархического дерева результатов. По умолчанию показывается только часть дерева, и для того, чтобы увидеть все разделы, потребуется щелкнуть по ссылке More, расположенной под списком. Доступна опция быстрого поиска в кластерах (Find in clusters). Она по сути своей работает на уточнение запроса. Если внести в это поле дополнительное ключевое слово, то все кластеры в дереве, в которых встречается данный термин, получат цветную подсветку. Есть несколько интересных находок и в интерфейсе поисковика. В аннотациях к ссылкам показывается традиционная для метапоисковиков строка, сообщающая, в чьих именно базах был найден данный документ, а также его рейтинг в этих системах. Удобная особенность Vivisimo — предварительный просмотр найденных страниц в небольшом окошке прямо на странице результатов поиска, рядом со ссылками (кнопка preview). Это значит, что вам не придется уходить с поисковика или бороться с толпой новых окон браузера в попытке бросить взгляд на найденные сайты.
Страница расширенного поиска предлагает выбор баз данных, по которым будет вестись поиск, а также такие служебные инструменты, как ограничение по языкам документов (что приятно, в списке присутствует не только русский, но также и белорусский и украинский), "семейный" фильтр и состав дополнительной информации о найденной ссылке, выводимой в списке результатов. Отметим, что Vivisimo отрабатывает запросы на русском, выделяя довольно корректные кластеры. Правда, результаты такого поиска не будут полными, поскольку система практически ничего не знает о русских поисковиках. Пользователям браузера Firefox предлагается скачать бесплатную панель поиска Vivisimo. Таким образом, иерархическая организация результатов серьезно сокращает время, затрачиваемое на знакомство с результатами. Vivisimo выглядит очень даже неплохим выбором при поиске по широким темам. В "минус" запишем игнорирование русскоязычных поисковиков, а также отсутствие поиска изображений и других не-HTML-документов.
Clusty
clusty.com
В основу этого метапоисковика положен движок Vivisimo, к которому, как и полагается в случае полноценного решения, был добавлен ряд новых функций. Стартовал Clusty в 2004 году. Среди доступных баз данных — MSN, Ask, Gigablast, Wisenut, Looksmart и Open Directory. Как и положено близкому родственнику Vivisimo, Clusty выводит результаты поиска организованными в тематические категории-кластеры. Кроме общей кластеризации по собственному алгоритму системы, можно "заказать" кластерный поиск по определенному источнику или URL. Что касается языка запросов, то Clusty понимает операторы AND, OR, NOT и NEAR. Можно также вести поиск по фразе, взятой в кавычки, правда, последняя возможность является недокументированной. Используя операторы, стоит учесть, что Clusty отправит их только на те поисковики, которые поддерживают их использование. Сразу отметим более широкий выбор направлений поиска. Кроме веб-документов, доступен метапоиск по изображениям и новостям, а также блогам. В настройках поиска выставляется количество выводимых по умолчанию кластеров, набор инструментов для работы с найденными ссылками и другие служебные настройки. Кроме того, можно выбрать конкретные поисковики, на которые уйдет ваш запрос. Интересная функция Clusty — выбор основы для кластеризации. Проводится он с помощью выпадающего меню над деревом кластеров. Доступны три варианта: кластеризация по теме, источнику и URL. Если первый режим не требует пояснений, то второй позволяет быстро сгруппировать результаты по нашедшим их поисковикам, а третий — по зонам (.com, .net, .org и т.д.). Просмотрев найденные результаты, можно сразу отправиться на оказавшиеся самыми полезными поисковики. К сожалению, среди них вы не найдете Google и Yahoo, что стоит признать существенным недостатком Clusty. Как и Vivisimo, Clusty предлагает панель инструментов для Firefox. Доступна и панель для Internet Explorer, так что его сторонники в этом случае не должны чувствовать себя обделенными.
ez2Find
ez2find.com
Как и рассмотренные выше метапоисковики, данный ресурс использует кластеризацию для обработки собранных ссылок, при этом заявляя о поддержке поиска по базам Google и Yahoo. Метапоиск ведется по веб-страницам, каталогам, изображениям, новостям, коммерческим предложениям и энциклопедиям. Среди последних — Encarta, Wikipedia, InfoPlease, Encyclopedia, XReferer и Bartleby. В каждом направлении поиска можно выбрать собственный набор поисковиков, на который уйдет ваш запрос. Выбрать среди них нужные можно просто проставив галочки в предлагаемом списке. Это дает одну любопытную возможность — отметив какой-нибудь один поисковик, вы, по сути, получите для него внешний "кластерный" интерфейс. Ez2Find удачно работает с локальными поисковиками. На стартовой странице ресурса присутствует раздел Local, в котором можно быстро перейти к поиску по местным поисковикам, каталогам и другим подобным ресурсам. Эта функция ez2Find поистине уникальна и существенно экономит время при поиске редкой информации в не самых популярных национальных сегментах Интернета. В отличие от Vivisimo с его иерархическим деревом, ez2Find показывает кластеры единым одноуровневым списком. Уточнить запрос можно только один раз, после чего дополнительная панель кластеров становится недоступной. Над основным списком ссылок на странице выводится небольшая панель, на которой можно выбрать используемые поисковики. Если один ресурс нашли сразу несколько поисковиков, то Ez2Find показывает рядом со ссылкой несколько звездочек — по числу нашедших ее серверов. Под общим списком дается статистика обработки вашего запроса различными поисковиками. Из дополнительных сервисов можно отметить доступ к справочным данным о найденных сайтах (используется Alexia) и онлайновому переводчику веб-страниц (основан на Systran). Результаты перевода, как это пока свойственно машинным переводчикам, во многом оставляют желать лучшего, однако общий смысл понять можно — этакая приятная мелочь.
Nigma
www.nigma.ru
Российский кластерный метапоисковик Nigma можно назвать достойным ответом западным ресурсам. Это разработка Московского государственного университета им. М.В. Ломоносова. Предварительная версия сервиса была запущена в начале 2005 г. Несмотря на все еще ведущуюся доработку, Nigma уже сейчас демонстрирует весьма достойный результат. Кстати говоря, авторы системы обещают открыть ее коды после того, как будет получена полностью стабильная версия системы. Nigma опрашивает Google, Yahoo, Altavista, MSN, Yandex и Rambler, обеспечивая тем самым замечательный охват источников. В Nigma заложен ряд интереснейших решений, которые заслуживают отдельного разговора, поэтому сейчас ограничимся только самым вкусным.
Во-первых, поисковикам отправляются запросы не только по точно заданному вами слову, но и по его автоматически сгенерированным формам, что существенно увеличивает количество найденных страниц. Работа этого механизма видна в служебной информации о ссылке: если документ был найден без морфологического преобразования запроса, то там будет просто указан использованный поисковик и рейтинг страницы. Если же была найдена сгенерированная словоформа, то после названия поисковика будет стоять буква "М". Поскольку проект разработан в России, этот механизм работает весьма корректно. Во-вторых, для обработки массива ссылок Nigma использует собственный алгоритм кластеризации, опять-таки, оптимизированный с учетом особенностей русского языка. Результат получается в лучших традициях уже рассмотренных зарубежных метапоисковиков. Отметим, что степень детализации кластеров здесь довольно высока, поэтому примененные в Nigma иерархические схемы их демонстрации здесь очень даже кстати. Таких схем две. Первая реализована посредством обычного HTML-интерфейса — кластеры показываются иерархическим деревом сбоку от списка ссылок. Вторая, на сегодняшний день экспериментальная, построена на AJAX и выглядит куда интересней. Нам предлагается особая панель, на которой выводятся названия выделенных кластеров. При щелчке на конкретном кластере, во-первых, загружается список относящихся к нему ссылок. Кроме того, на панели кластеров появляются связанные с активным кластером категории. Работа в таком режиме потребует некоторого привыкания, но затем становится очень удобной и на редкость наглядной. Как и подавляющее большинство уважающих себя поисковых ресурсов, Nigma предлагает загрузить собственную специализированную панель для браузера Firefox. Короче говоря, если у вас возникнет желание попробовать кластеризацию для поиска документов на русском языке, обязательно обратите самое серьезное внимание на этот некоммерческий проект.
Подведем некоторые итоги. Комбинация метапоиска и кластеризации дает весьма интересные результаты — эти технологии удачно дополняют друг друга, выгодно подчеркивая свои сильные стороны и уменьшая недостатки. Что радует, конкретные реализации данной схемы не подкачали. Vivisimo/Clusty и Easy2Find представляют собой удачные инструменты, заточенные в первую очередь под исследования широких тем. Весьма достойно выглядит российский поисковик Nigma. Результаты при этом достигаются гораздо быстрее, чем при использовании классических поисковиков.
Алексей Кутовенко, alteridem@tut.by
Компьютерная газета. Статья была опубликована в номере 23 за 2006 год в рубрике интернет