Интернет-поиск. Dogpile и Metabear/Metabot

Поиски, проведенные по одному и тому же запросу на различных поисковых ресурсах, зачастую дают разные результаты. Удивляться такому положению вещей не стоит — поисковые машины отличаются собранными базами данных, алгоритмами обработки информации и множеством деталей и нюансов. Проложить мостики между кусочками этой своеобразной интернет-мозаики помогают метапоисковые машины. Мысль объединения результатов поиска различных машин в одном интерфейсе — просто великолепная задумка, однако идеальных реализаций, как известно, не бывает, посему выбирать метапоисковики надо сознательно, и пользоваться ими следует с умом.

Классический метапоиск


У данного класса интернет-поисковиков есть ряд отличительных признаков. Это отсутствие собственных баз данных (они пересылают запросы на несколько других поисковиков), одновременное получение результатов сразу от нескольких поисковых машин. Классические метапоисковики во многом пытаются повторять обычные машины. Так, например, результаты поиска выводятся единым списком, отсортированным по релевантности. При оценке и размещении ссылок в списке, кроме всего прочего, как правило, учитывается количество нашедших эту ссылку поисковиков и позиция конкретной веб- страницы в этих результатах. Преимущества онлайнового метапоиска очевидны. Во-первых, это широта охвата — одним запросом вы можете охватить сразу несколько поисковиков со своими уникальными базами данных. В результате экономится время, которое было бы потрачено на перебор поисковиков, как следствие повышается эффективность вашей работы. Кроме того, метапоисковики позволяют сравнить результаты, полученные от разных поисковиков, а также, например, быстро оценить позицию какого-нибудь сайта в результатах различных поисковых ресурсов. Наконец, эти инструменты абсолютно доступны и бесплатны.

Для полноты картины назовем и основные недостатки метапоисковых систем. Поскольку результатов по популярным запросам и на одном поисковике может быть ну очень много, количество ссылок, полученных с нескольких машин, может достигать совсем уж неприличных цифр. Сражаться с такими объемами можно различными способами. Одним из самых популярных является ограничение количества ссылок, полученных с одного поисковика. Зачастую метапоисковики принимают только 10-20 первых результатов с каждой машины. Это серьезно бьет по глубине поиска. Есть у метапоисковиков проблемы с синтаксисом сложных запросов — он зачастую либо вообще отсутствует, либо ограничивается самыми незамысловатыми командами. В особо запущенных случаях нельзя даже произвести поиск по точной фразе. Такое положение вещей сложилось в основном "благодаря" различиям в языках запросов, задействованных системой поисковиков. Забивать себе голову проблемами перевода вашего заковыристого запроса на язык, понятный десяткам различных машин, станет далеко не каждый разработчик. Ряд метапоисковиков грешит злоупотреблением ссылками из платных рекламных баз. Хорошо если они будут четко выделены в списке результатов. Данное обстоятельство также не способствует повышению качества поиска. Кроме того, современные крупные поисковики могут похвастаться массой дополнительных сервисов, в то время как метапоиковики на этом фоне смотрятся довольно аскетично. Наконец, еще один специфический, но важный для нас с вами недостаток — по большей части это зарубежные ресурсы, поэтому далеко не все метапоисковики способны корректно отрабатывать запросы на кириллице.

В настоящее время метапоисковиков пруд пруди. Во многом это связано с желанием разработчиков немного упростить себе задачу — множество таких метамашин просто рассылают запрос по нескольким поисковым ресурсам и выдают вам один или несколько списков результатов, не утруждая себя дополнительной их обработкой. Если принять во внимание эти особенности, легко сформулировать требования к добротному метапоисковику. В первую очередь, у него должна быть хорошая подборка поисковиков. При этом важно даже не столько общее количество поисковиков в списке, сколько хороший охват существующих в данный момент индексных баз — их все-таки меньше, чем поисковиков. Смысла в одновременном обращении к нескольким поисковикам, которые пользуются одной и той же индексной базой, не так уж много, поскольку результаты все равно будут совпадать. Хорошая метапоисковая машина также должна располагать мощными инструментами дополнительной обработки собранных из разных источников данных. По меньшей мере, она должна уметь отсеивать дублирующиеся ссылки, а также корректно сортировать результаты общего метапоиска. Весьма желательно также видеть статистику: где именно была найдена конкретная ссылка, какой поисковик принес самый интересный улов. Наконец, важны дополнительные инструменты поиска, скорость и стабильность работы. Вооружившись такой умозрительной линейкой, давайте пройдемся по характеристикам парочки наиболее интересных и полезных метапоисковиков классического типа.

Dogpile
www.dogpile.com


Довольно интересный метапоисковик с веселеньким мультяшным интерфейсом. Dogpile — далеко не новичок в сфере метапоиска, в то же время он и сегодня выглядит достаточно интересно. Работает в основном с четверкой ведущих западных поисковиков. Это Google, Yahoo, MSN и Ask.

Соответственно, в Dogpile представлены четыре крупные индексные базы, что дает очень хороший охват ресурсов. Кроме того, Dogpile умеет искать не только веб-документы, но и новости, картинки, аудио- и видеофайлы, а также деловую информацию и White Pages. Как и на других метапоисковиках, самый, наверное, интересный раздел Dogpile — это расширенный поиск. На этой странице присутствуют инструменты работы с логическими операторами (подраздел Quick Web Search), поиск документов на определенном языке, отбор по дате включения страницы в индексную базу. Можно отобрать ссылки на ресурсы определенного домена (Domain Filter). Отдельного упоминания заслуживает подраздел Search Filter, по сути, являющийся так называемым "семейным фильтром". Он предусматривает три варианта фильтрации, скажем так, сомнительного контента: отсутствие фильтрации, отбрасывание наиболее нескромных страниц и, наконец, максимальная фильтрация, после которой, по идее, должны остаться только безупречно благопристойные ссылки. Что интересно, настройки этого фильтра повторены на странице Preferences, только уже под другими именами. Суть фильтра от этого совершенно не меняется — все работает абсолютно одинаково. Отличие в другом: если настройки, выставленные на странице Advanced Search, работают только для одного поиска, то опции Preferences запоминаются и действуют постоянно.

Раз уж зашла речь о странице Preferences, стоит добавить, что там, кроме всего прочего, можно настроить способ сортировки результатов поиска изображений, новостей и медиафайлов. Таких способов два: по источнику и по релевантности. В первом случае ссылки будут сгруппированы по нашедшим их поисковикам, а сортировка внутри группы будет повторять очередность "родного" поисковика. Это удобно, если вам нужно сравнить топовые результаты, полученные от различных машин — все будет видно как на ладони. Второй способ выводит ссылки в одном общем списке, отсортированном уже по алгоритмам самого Dogpile. В этом случае можно также настроить количество ссылок, выдаваемых на одном экране. Среди других интересных опций — подсветка найденных терминов из вашего запроса, а также сохранение результатов 15 последних поисков. Результаты поиска выводятся общим списком. Над ним располагается линейка кнопок, обозначающих использованные поисковые машины. Эти кнопки запускают очень интересный инструмент под названием Comparison View. Щелкнув по кнопке конкретного поисковика, вы откроете рядом с общим списком список именно его результатов. Таким способом можно открыть колонки нескольких поисковиков. Более того, можно посмотреть уникальные результаты каждого поисковика, то есть те ссылки, которые были найдены данным конкретным поисковиком, но выпали из поля зрения других машин. Если вы откроете несколько колонок поисковиков, уникальные результаты будут подсвечены цветовым выделением. Это действительно удобно — мы отбрасываем повторяющиеся результаты и теперь видим именно те ссылки, которые обычно теряем, используя только один поисковик. Такой эксперимент, поверьте, может быть весьма поучительным. Предлагаемый Dogpile инструмент Comparison View, пожалуй, можно смело назвать квинтэссенцией классического метапоиска. Все параметры отображения результатов легко настраиваются — работа с колонками здесь очень напоминает уже знакомый нам по предыдущим статьям поисковик А9. Есть здесь и своя ложка дегтя — проблемы с кодировками. Если вы запустите запрос, набранный кириллицей, он отработает правильно, но вот с просмотром результатов могут возникнуть проблемы.

Таким образом, Dogpile хорош в первую очередь достойным охватом поисковиков, возможностью поиска файлов различных форматов и неплохими опциями расширенного поиска. Если вы ищете преимущественно по зарубежным ресурсам и заинтересованы в быстром отлове уникальных для каждого поисковика ссылок, это хороший вариант.

Metabear/Metabot
www.metabear.com/www.metabot.ru


А это уже ресурс, созданный нашими ближайшими соседями. Как результат — нормальная работа с русскоязычными ресурсами. Однако поисковиков могло бы быть и побольше: сейчас поддерживаются только Msn, Google, AltaVista и Rambler. Metabot — классический метапоисковик, цель которого — охватить несколько ведущих поисковиков в едином интерфейсе и предоставить унифицированный язык запросов. Получаемые от машин данные дополнительно обрабатываются по собственному алгоритму. Что интересно, обитает данный проект сразу на двух адресах: на metabear.com расположена английская версия, а на metabot.ru живет поиск по русскоязычным ресурсам. Видимо, разработчики ресурса всерьез полагают, что ассоциации с медведями — единственный способ указать на российские корни проекта. При поиске через Metabot можно применять логические операторы и поиск на точное совпадение фразы. Излишне увлекаться данной возможностью не следует.

Как мы уже отмечали выше, различные поисковики могут по-разному толковать одни и те же операторы, что может привести к неправильной трактовке запроса и ухудшению результатов поиска. Не поленитесь заглянуть на страничку помощи Metabot — там все описано очень четко, сжато и с доступными примерами. Результаты поиска выводятся общим списком. Что касается интерфейса, то здесь все выдержано в строгом стиле. Каждая ссылка сопровождается краткой текстовой выдержкой из найденного документа. Обязательно показывается перечень нашедших ссылку поисковиков, на которые можно тут же отправиться. Ключевые слова подсвечиваются цветовым выделением. Кроме просмотра веб-документов, Metabot ищет и по специфичным ресурсам — видеоклипам и музыкальным файлам. Особенно отметим метапоиск по файловым FTP-архивам. Это довольно интересная функция, дополняющая обычный поиск. Здесь также используются сторонние FTP- поисковики, а список результатов проходит дополнительную обработку.

В результате Metabear/Metabot является добротным проектом, хотя звезд с неба не хватает. Интересен главным образом поиском по русским ресурсам и файлам разных типов.

Подведем итог

Метапоисковик — это средство поиска с максимально широким охватом индексных баз. Воспользовавшись таким ресурсом, можно быстро получить общую картину интересующей вас темы, которую потом при желании можно уточнить, отправившись на оказавшиеся наиболее полезными поисковики. Главная проблема метапоиска — сортировка результатов. Даже при поиске по одной базе данных алгоритмы сортировки представляют собой едва ли не главный ресурс любого поисковика. Когда таких баз несколько, задача усложняется, и решить ее без потери глубины поиска весьма и весьма непросто. Однако сегодня уже есть несколько вариантов решения этой проблемы, наиболее популярным из которых является кластеризация результатов. Именно такие поисковики нового поколения станут темой нашего следующего обзора.

Алексей Кутовенко, alteridem@tut.by


Компьютерная газета. Статья была опубликована в номере 11 за 2006 год в рубрике интернет

©1997-2024 Компьютерная газета