Интернет-поиск: самурай выбирает меч

Сфера интернет-поиска развивается динамично, новые сервисы появляются постоянно. Немало свежих проектов предлагают своим пользователям ряд уникальных возможностей. Да и лидеры рынка, отдадим им должное, не сидят сложа руки, периодически добавляя все новые функции своим продуктам. Благо, в последние пару лет в интернет-поиске появился ряд новых технологий, связанных с организацией пользовательского интерфейса, сортировкой результатов, работой с мультимедиа и тематическими ресурсами.

Для того чтобы интернет-поиск был успешным, должны быть выполнены два условия. Запросы должны быть хорошо сформулированы и задавать их нужно в подходящих местах. Другими словами, требуется, с одной стороны, умение сформулировать свои интересы на языке поискового запроса, а с другой – хорошее знание поисковых систем, доступных инструментов поиска, их достоинств и недостатков. Это позволит выбирать в каждом конкретном случае наиболее подходящие средства поиска, что и добавит определенный процент к эффективности интернет-поиска. Наш материал посвящен именно второму аспекту – выбору инструментов.

Говоря об интернет-поиске, нельзя обойти вниманием ряд терминов, которые тесно связаны с этой сферой и часто используются для описания и оценки поисковиков. В первую очередь – это понятия релевантности и пертинентности.

Релевантность – это соответствие ответа поисковика поступившему от пользователя поисковому запросу. Другими словами, релевантным считается ответ, максимально соответствующий вашему запросу. Это важнейший в работе интернет-поисковиков показатель. Не случайно сортировка выдачи по релевантности является основной на подавляющем большинстве поисковых ресурсов. Однако если мы вспомним расхожее выражение «каков вопрос – таков и ответ», то подойдем к важному нюансу в определении соотношения релевантности и качества результатов поиска. Дело в том, что строгое соответствие условиям запроса не гарантирует качественный результат. Релевантный ответ вполне может оказаться ненужным, несмотря на то, что будет прекрасно соответствовать запросу. Дело в том, что пользователь может сформулировать неудачный или слишком широкий запрос. По статистике крупнейших поисковиков большинство запросов состоит из одного-двух слов. Не удивительно, что полученные на такие запросы ответы не всегда соответствуют ожиданиям пользователя. Поэтому для определения качества поиска часто используют понятие «пертинентность», которое обозначает степень соответствия ответа поисковика реальной информационной потребности пользователя. Таким образом, пертинентный ответ - это ответ, который предлагает именно нужную пользователю информацию. Даже если запрос был сформулирован пользователем не самым удачным образом. Именно на повышение пертинентности направлен ряд новых технологий интернет-поиска.

Следующие два важных понятия – широта и глубина интернет-поиска. Широким называют поиск, который захватывает как можно большее количество источников информации. При этом достаточным считается хотя бы упоминание о том или ином подходящем под запрос сайте. Глубина поиска относится к подробности индексирования и последующего поиска ресурсов. Например, крупные поисковики по-разному подходят к индексированию разных сайтов. Крупные и популярные сайты индексируются в максимальном объеме, роботы стараются не упустить ни одной страницы такого ресурса. В то же время на других сайтах может быть проиндексировано всего несколько страниц. Эти обстоятельства, естественно, сказываются и на последующем поиске. Глубокий поиск работает по принципу «лучше включить в результаты лишнюю информацию, чем упустить какие-либо относящиеся к теме поиска данные».

Проблема выбора

К сожалению, сейчас еще нет какого-либо одного ресурса, который был бы способен удовлетворить всем требованиям к интернет-поиску. Поэтому при серьезном подходе к поиску неизбежно приходится пользоваться несколькими ресурсами, используя каждый в наиболее подходящем случае. Доступных инструментов поиска немало, каждый обладает своими особенностями. Выбирать есть из чего, поисковых машин и других ресурсов, помогающих в поиске информации в современной Сети, — тысячи. Однако, несмотря на все разнообразие, их можно объединить в несколько групп, каждая из которых обладает определенными достоинствами и недостатками при проведении поиска. Давайте пройдемся по этим группам и постараемся выделить их наиболее важные особенности.

Поисковые машины

Наиболее популярным средством поиска являются поисковые машины (интернет-поисковики, search engines). Тройка лидеров в общемировом масштабе достаточно стабильна. Это Google, Yahoo и Bing. Во многих странах к этому перечню добавляются собственные локальные поисковики, оптимизированные для работы с местным контентом. С помощью таких машин теоретически можно найти конкретное слово на страницах многих миллионов сайтов. Несмотря на многочисленные различия, все интернет-поисковики работают по схожим принципам и с технической точки зрения состоят из похожих элементов.

Первая структурная часть поисковика – специальные программы, применяемые для автоматического поиска и последующего индексирования веб- страниц. Такие программы обычно называют пауками или ботами. Они просматривают код веб-страниц, находят расположенные на них ссылки и тем самым обнаруживают новые веб-страницы. Есть и альтернативный способ включения сайта в индекс. Многие поисковики предлагают владельцам ресурсов возможность самостоятельно добавить сайт в свою базу. Как бы то ни было, затем веб-страницы скачиваются, анализируются и индексируются. В них выделяются структурные элементы, находятся ключевые слова, определяются их связи с другими сайтами и веб-страницами. Производятся и другие операции, результатом выполнения которых становится то, что принято называть индексной базой поисковика.

Эта база – второй главный элемент любого поисковика. Сейчас не существует какой-либо одной, абсолютной индексной базы, которая содержала бы сведения обо всем контенте Интернета. Перспективы ее создания также весьма туманны. Поскольку разные поисковики используют собственные программы поиска веб-страниц и строят свой индекс с помощью разных алгоритмов, индексные базы поисковиков могут существенно отличаться. Некоторые сайты будут проиндексированы несколькими поисковиками, однако всегда будет определенный процент ресурсов, которые будут включены в базу только какого- либо одного поисковика. Наличие у каждого поисковика такой оригинальной и непересекающейся части индекса позволяет сделать важное практическое заключение: если вы пользуетесь только одним поисковиком, пусть даже самым крупным, вы обязательно потеряете некоторый процент полезных ссылок. Другими словами, широта поиска будет недостаточной. Заметим, что формирование индексных баз – это весьма ресурсоемкая задача. Многие проекты не утруждают себя сбором собственных баз, предпочитая использовать базы одного или нескольких сторонних поисковиков. Это позволяет сосредоточиться на разработке оригинальных пользовательских интерфейсов и дополнительных инструментов, иногда превосходящих возможности владельца баз. Следующая часть интернет-поисковика – собственно программы поиска и сортировки результатов. Они решают две основные задачи: сначала находят в базе страницы и файлы, соответствующие поступившему запросу, а затем сортируют полученный массив данных в соответствии с различными характеристиками. От эффективности их работы во многом зависит успех работы пользователя с поисковиком.

Последний элемент интернет-поисковика – это пользовательский интерфейс. Кроме обычных для любых сайтов требований к эстетике и удобству, к интерфейсам поисковиков предъявляется еще одно важное требование: они должны предлагать различные инструменты составления и уточнения запросов, а также сортировки и фильтрации результатов.

Преимущества поисковых машин - великолепный охват источников, сравнительно быстрое обновление содержимого базы и хороший выбор дополнительных функций. Главный инструмент работы с поисковиками – это запрос. Для успешного поиска неплохо изучить основные правила составления запросов, а также языки поисковых запросов конкретных поисковиков.

Недостатки поисковиков – требовательность к ресурсам и наличие информационного шума в результатах. Основные направления совершенствования современных поисковых машин как раз связаны с повышением точности их ответов и фильтрацией ненужных данных.

Веб-каталоги

Веб-каталоги – это ресурсы, в которых сайты распределяются по тематическим категориям. Если с поисковиками мы работаем только посредством запросов, зачастую не видя ресурсы схожей тематики, то здесь мы можем просматривать целые разделы каталогов.

Второе принципиальное отличие каталогов – это то, что в их наполнении, как правило, непосредственно участвуют люди, которые просматривают ресурсы и относят сайт к той либо иной категории. Это отличает каталоги от автоматических поисковых машин.

Веб-каталоги принято делить на универсальные и тематические. Универсальные стараются охватить максимум тем. В них можно найти что угодно: от сайтов о поэзии до компьютерных ресурсов. Другими словами, широта поиска у них максимальная. Тематические же каталоги специализируются на определенной тематике, обеспечивая за счет сокращения широты охвата ресурсов максимальную глубину поиска.

Второе дыхание веб-каталоги получили в эпоху Web 2.0. К примеру, многочисленные ресурсы социальных веб-закладок – не что иное, как веб- каталоги. Только над их пополнением трудятся сами посетители проекта, а не специальная команда каталогизаторов. За счет привлечения труда многочисленных пользователей удается значительно расширить базы проектов. Такие ресурсы являются ценным источником сведений и предлагают массу интересных дополнительных инструментов поиска.

Преимущества каталогов – сравнительно высокое качество ресурсов, поскольку каждый сайт в нем был просмотрен и отобран человеком.

Тематическая группировка сайтов позволяет удобно просматривать сайты близкой тематики. Такой режим работы хорош для обнаружения новых для вас сайтов по интересующей теме – он точнее работы с поисковой машиной. Веб-каталоги рекомендуется использовать для первого знакомства с какой-либо предметной областью, а также поиска по нечетким запросам – у вас будет возможность побродить по разделам каталога и точнее определиться с тем, что именно вам надо в данный момент.

Недостатки веб-каталогов таковы. Во-первых, это медленное пополнение базы, поскольку включение сайта в каталог предполагает участие человека. По параметру оперативности веб-каталог не соперник поисковикам. Кроме того, веб-каталоги существенно уступают поисковикам по размерам баз. Соперничество с автоматическими системами в количестве охваченных ресурсов для них задача безнадежная. Еще один недостаток современных каталогов носит субъективный характер. Это отсутствие единой классификации ресурсов и четких критериев отнесения их к той или иной категории. Иногда создается впечатление, что разработчики веб-каталогов намеренно игнорируют уже существующие классификационные поисковые языки.

Социальный поиск

Сообщества людей – великая вещь. Массу полезнейшей информации можно почерпнуть из сообщений форумов, социальных сетей и блогов. В то же время далеко не всегда универсальные поисковики успешно справляются с индексированием такого контента. Например, индексирование микроблогов требует от роботов поисковика практически мгновенной реакции на многочисленные появляющиеся сообщения, что представляет собой нетривиальную задачу. В результате сейчас существует ряд специализированных поисковиков, работающих с социальными ресурсами. Примером могут служить многочисленные ресурсы поиска для того же Twitter, превосходящие по качеству и возможностям не только универсальные поисковики, но и встроенный поиск самого Twitter.

Справочники

Для поиска ответов на конкретные вопросы эффективней всего использовать справочные ресурсы. К ним относятся многочисленные энциклопедии и справочники, сервисы перевода и другие ресурсы, на которых можно получить краткие и конкретные ответы на свои вопросы. Обратившись к справочнику, вы избавите себя от необходимости обработки текстов с разношерстных сайтов. Кроме того, справочники дают определенную уверенность в точности полученных фактических сведений.

Программы-поисковики

Для интернет-поиска используются и специальные приложения, устанавливаемые на локальном компьютере. Это могут быть и простые программы, и довольно серьезные комплексы поиска и анализа данных. Наиболее распространены поисковые плагины для браузеров, панели для браузеров, предназначенные для работы с каким-либо конкретным поисковым сервисом и метапоисковые пакеты с возможностями анализа результатов, наиболее известным из которых является Copernic.

В данной статье мы познакомились с теорией интернет-поиска, рассмотрели достоинства и недостатки отдельных групп поисковых ресурсов. В следующих статьях мы продолжим рассказ о практическом использовании конкретных сервисов и инструментов.

Алексей Кутовенко, alteridem@tut.by


Компьютерная газета. Статья была опубликована в номере 12 за 2010 год в рубрике интернет

©1997-2024 Компьютерная газета