Интернет-поиск: в начале славных дел
Долго рассуждать на страницах компьютерного издания о возможностях Глобальной сети в деле поиска информации — дело, на мой взгляд, совершенно лишнее. Читатели здесь люди не случайные и, как правило, сами все прекрасно понимают. Другое дело — поиск эффективный — полезные сведения по такой теме никогда не бывают бесполезными. Сегодняшний материал по сути своей является вводной частью к циклу статей, посвященных современному состоянию дел в этой интереснейшей области ИТ. Основной упор при этом будет сделан на практические аспекты поиска информации. Здесь есть о чем рассказать: новые сервисы появляются постоянно. Кроме грандов рынка, мы не обойдем вниманием и новые проекты, которые пока еще не могут равняться в популярности с лидерами, но предлагают своим пользователям ряд уникальных возможностей.
Пути-дорожки
Итак, вам необходимо раздобыть те или иные сведения или документы. Изъясняясь языком, приближенным к научному, у вас появилась информационная потребность. Получить желаемое можно различными путями — например, позвонив приятелю. Иногда, знаете ли, стоит вспомнить о наличии жизни в оффлайне. Однако мы займемся Сетью, в которой, как известно из расхожего выражения, есть все, но найти чего-нибудь полезное бывает трудно. Давайте пробежимся по основным источникам поиска информации в Сети и постараемся отметить некоторые важные их особенности.
Каталоги
В каталогах сайты располагаются по тематическим категориям. В наполнении каталогов, как правило, непосредственно участвуют люди, которые и относят сайт к той либо иной категории. За включение ресурса в каталог могут и денег попросить. Таким образом, при использовании каталога у вас есть преимущество — каждый ресурс в нем был просмотрен и отобран человеком — это раз. Во-вторых, тематическая группировка сайтов позволяет увидеть рядом сайты близкой тематики, причем совершенно не факт, что вы найдете все эти сайты, просто набрав в поисковике название их категории в каталоге. Каталоги можно условно разделить на универсальные и специализированные. С универсальными все понятно — в них будет все, что угодно: от садоводства до компьютеров. Специализированные же сосредотачиваются на определенной тематике, но за счет этого сокращения охвата ресурсов обеспечивают лучшую глубину описания своего раздела. Недостатки веб-каталогов являются прямым продолжением их достоинств. Поскольку включение сайта в каталог предполагает участие человека или, для серьезных ресурсов, даже предварительный анализ качества содержимого кандидата, веб- каталог по определению не сможет соперничать с автоматическими системами в количестве охваченных ресурсов, а также скорости их включения в список и последующего обновления. Второй недостаток — отсутствие единой классификации ресурсов и четких, единых для всех критериев отнесения их к той или иной категории. В результате названия и содержание разделов различных веб-каталогов хоть в основном и похожи, но могут обладать некоторой местной спецификой. Таким образом, веб-каталоги хороши для первого знакомства с какой-либо предметной областью по заранее отобранным и, как правило, качественным интернет-ресурсам. Второе применение — поиск по самым общим вопросам — у вас будет возможность попутешествовать по разделам категорий и определиться с тем, что именно вам надо в данный момент.
Поисковые машины
Эти инструменты предлагают куда более изощренные технологии поиска. С их помощью теоретически можно найти конкретное слово на страницах многих миллионов сайтов. Более того, роботы некоторых поисковиков индексируют массу скрытой информации, которая в определенных случаях может представлять интерес. Здесь работает автоматика, поэтому, с одной стороны, обеспечивается великолепный охват источников, относительно быстрое обновление содержимого базы и реализуется набор дополнительных функций. С другой стороны, избежать информационного шума здесь намного труднее, поэтому в настоящее время основные тонкости работы с поисковиками как раз относятся к средствам повышения точности их ответов и быстрой фильтрации ненужных сведений. Если по каталогам можно гулять, переходя из одного раздела в другой, то главный инструмент работы с поисковиками — это запрос. Таким образом, для успешного поиска неплохо бы ориентироваться в правилах их составления, а также языках поисковых запросов конкретных поисковиков. Они во многом схожи, что несколько упрощает задачу.
Несколько слов о механике работы интернет-поисковиков. Основа такого поисковика — база данных проиндексированных страниц и документов. Для ее наполнения используются специальные программы, которые называют пауками или ботами. Поскольку разные поисковики используют собственных пауков, которые построены на разных алгоритмах и обладают различными возможностями, собранные базы данных могут существенно отличаться. Многие проекты допускают самостоятельное добавления сайта в базу владельцем ресурса. Собранные данные индексируются. Сегодня нельзя сказать, что есть какая-то одна абсолютно полная индексная база, поэтому, если вы пользуетесь только одним поисковиком, пусть даже самым лучшим, то определенно теряете некоторый процент полезных ссылок. Ряд проектов не утруждает себя сбором собственных баз, предпочитая "арендовать" базы одного или нескольких сторонних поставщиков. Данный подход, в принципе, тоже имеет право на жизнь, поскольку в таком случае появляется возможность сосредоточиться на разработке дополнительных, иногда весьма полезных, услуг. Следующий элемент — собственно механизм поиска. Он решает две основные для нас задачи: находит ссылки, соответствующие поступившему запросу, и сортирует полученные результаты по определенному набору признаков. От эффективности выполнения данных операций во многом зависит успех работы с поисковиком. Наконец, интерфейс — то, с чем непосредственно приходится работать человеку. Баланс между требованиями к простоте и возможностью быстро добраться до "продвинутых" функций, наличие толковых описаний этих самых функций — это то, на что обязательно приходится обращать внимание, если есть желание использовать сервис, как говорится, по полной программе. Несмотря на такую вполне стандартную для всех архитектуру, поисковики могут сильно отличаться друг от друга в деталях. Вообще в сфере поисковых машин постоянно происходит что-то новое — это самая интересная с этой точки зрения область технологий поиска.
Справочные ресурсы
Онлайновые энциклопедии, справочники, переводчики и прочие сервисы, с помощью которых можно быстро получить сжатый и конкретный ответ на прямо поставленный вопрос. Если вам надо узнать название столицы Зимбабве, значение слова "батрахомиомахия" или, например, площадь крыла британского истребителя времен Второй мировой Spitfire IX LF, для этого вовсе не обязательно копаться в куче текстов с разношерстных сайтов — проще и быстрее будет обратиться к тематическому справочнику. Кроме того, у вас будет определенная уверенность в точности полученных фактических сведений, поскольку в данном случае удается избежать эффекта "испорченного телефона" при заимствовании сведений авторами различных веб-ресурсов.
Группы, форумы, рассылки и блоги
Сообщества увлеченных людей — великая вещь. Интернет-технологии значительно упростили их формирование. Практически по любой вменяемой теме можно найти группу людей, так или иначе связанных с предметом поиска и которым действительно есть что сказать. В архивах форумов и рассылок иногда можно отыскать просто удивительные вещи. Можно, наконец, спросить самому — важно только сделать это с умом и культурно. Отдельная область — блоги, которые тоже способны стать хорошим источником информации, благо уже существуют неплохие средства поиска по их содержимому.
Спецпрограммы
Постоянно держать в голове все нюансы работы с различными поисковиками по силам только очень увлеченным людям. Вполне предсказуемым стало стремление переложить часть ноши на плечи машины. В результате появился целый класс программ, так или иначе связанных с поиском информации в Интернете. Разброс характеристик таких пакетов довольно большой: от простеньких утилиток до серьезных комплексов поиска и анализа данных, которые для своей работы требуют солидных ресурсов и немалых капиталовложений. Нормальному пользователю-частнику интересны главным образом следующие виды программ: поисковые плагины и панели для браузеров, инструменты, облегчающие работу с каким-либо конкретным поисковым сервисом, и, наконец, метапоисковые пакеты с возможностями анализа результатов.
Несколько терминов
Говоря о интернет-поиске, нам постоянно придется встречаться с таким понятием, как релевантность. Если выражаться простыми словами, то релевантность — это соответствие ответа поисковому запросу. Таким образом, релевантный ответ — это ответ, максимально соответствующий вашему запросу. В этом заключен важный нюанс релевантности — как говорится в известной пословице, "каков вопрос — таков и ответ". Другими словами, релевантный ответ вполне может оказаться малополезным несмотря на то, что будет самым строгим образом соответствовать запросу. Поэтому упомянем еще одно красивое слово — пертинентность. Это соответствие ответа вашей информационной потребности. Пертинентный ответ — это ответ, содержащий именно необходимую вам информацию, даже если запрос был сформулирован вами не совсем корректно.
"Дайте мне точку опоры…"
Мы постепенно подходим к важному выводу: для того, чтобы получить хороший ответ, надо задавать толковый вопрос и делать это в подходящем месте. Инструментов поиска немало, каждый обладает своими особенностями, которые предполагают определенные достоинства и недостатки. К сожалению, сейчас еще нет единого инструмента, который закрывал бы абсолютно все требования к интернет-поиску. Поэтому при серьезном подходе к делу приходится подбирать собственную "корзинку" инструментов, соответствующих индивидуальным интересам и потребностям.
Алексей Кутовенко, alteridem@tut.by
Пути-дорожки
Итак, вам необходимо раздобыть те или иные сведения или документы. Изъясняясь языком, приближенным к научному, у вас появилась информационная потребность. Получить желаемое можно различными путями — например, позвонив приятелю. Иногда, знаете ли, стоит вспомнить о наличии жизни в оффлайне. Однако мы займемся Сетью, в которой, как известно из расхожего выражения, есть все, но найти чего-нибудь полезное бывает трудно. Давайте пробежимся по основным источникам поиска информации в Сети и постараемся отметить некоторые важные их особенности.
Каталоги
В каталогах сайты располагаются по тематическим категориям. В наполнении каталогов, как правило, непосредственно участвуют люди, которые и относят сайт к той либо иной категории. За включение ресурса в каталог могут и денег попросить. Таким образом, при использовании каталога у вас есть преимущество — каждый ресурс в нем был просмотрен и отобран человеком — это раз. Во-вторых, тематическая группировка сайтов позволяет увидеть рядом сайты близкой тематики, причем совершенно не факт, что вы найдете все эти сайты, просто набрав в поисковике название их категории в каталоге. Каталоги можно условно разделить на универсальные и специализированные. С универсальными все понятно — в них будет все, что угодно: от садоводства до компьютеров. Специализированные же сосредотачиваются на определенной тематике, но за счет этого сокращения охвата ресурсов обеспечивают лучшую глубину описания своего раздела. Недостатки веб-каталогов являются прямым продолжением их достоинств. Поскольку включение сайта в каталог предполагает участие человека или, для серьезных ресурсов, даже предварительный анализ качества содержимого кандидата, веб- каталог по определению не сможет соперничать с автоматическими системами в количестве охваченных ресурсов, а также скорости их включения в список и последующего обновления. Второй недостаток — отсутствие единой классификации ресурсов и четких, единых для всех критериев отнесения их к той или иной категории. В результате названия и содержание разделов различных веб-каталогов хоть в основном и похожи, но могут обладать некоторой местной спецификой. Таким образом, веб-каталоги хороши для первого знакомства с какой-либо предметной областью по заранее отобранным и, как правило, качественным интернет-ресурсам. Второе применение — поиск по самым общим вопросам — у вас будет возможность попутешествовать по разделам категорий и определиться с тем, что именно вам надо в данный момент.
Поисковые машины
Эти инструменты предлагают куда более изощренные технологии поиска. С их помощью теоретически можно найти конкретное слово на страницах многих миллионов сайтов. Более того, роботы некоторых поисковиков индексируют массу скрытой информации, которая в определенных случаях может представлять интерес. Здесь работает автоматика, поэтому, с одной стороны, обеспечивается великолепный охват источников, относительно быстрое обновление содержимого базы и реализуется набор дополнительных функций. С другой стороны, избежать информационного шума здесь намного труднее, поэтому в настоящее время основные тонкости работы с поисковиками как раз относятся к средствам повышения точности их ответов и быстрой фильтрации ненужных сведений. Если по каталогам можно гулять, переходя из одного раздела в другой, то главный инструмент работы с поисковиками — это запрос. Таким образом, для успешного поиска неплохо бы ориентироваться в правилах их составления, а также языках поисковых запросов конкретных поисковиков. Они во многом схожи, что несколько упрощает задачу.
Несколько слов о механике работы интернет-поисковиков. Основа такого поисковика — база данных проиндексированных страниц и документов. Для ее наполнения используются специальные программы, которые называют пауками или ботами. Поскольку разные поисковики используют собственных пауков, которые построены на разных алгоритмах и обладают различными возможностями, собранные базы данных могут существенно отличаться. Многие проекты допускают самостоятельное добавления сайта в базу владельцем ресурса. Собранные данные индексируются. Сегодня нельзя сказать, что есть какая-то одна абсолютно полная индексная база, поэтому, если вы пользуетесь только одним поисковиком, пусть даже самым лучшим, то определенно теряете некоторый процент полезных ссылок. Ряд проектов не утруждает себя сбором собственных баз, предпочитая "арендовать" базы одного или нескольких сторонних поставщиков. Данный подход, в принципе, тоже имеет право на жизнь, поскольку в таком случае появляется возможность сосредоточиться на разработке дополнительных, иногда весьма полезных, услуг. Следующий элемент — собственно механизм поиска. Он решает две основные для нас задачи: находит ссылки, соответствующие поступившему запросу, и сортирует полученные результаты по определенному набору признаков. От эффективности выполнения данных операций во многом зависит успех работы с поисковиком. Наконец, интерфейс — то, с чем непосредственно приходится работать человеку. Баланс между требованиями к простоте и возможностью быстро добраться до "продвинутых" функций, наличие толковых описаний этих самых функций — это то, на что обязательно приходится обращать внимание, если есть желание использовать сервис, как говорится, по полной программе. Несмотря на такую вполне стандартную для всех архитектуру, поисковики могут сильно отличаться друг от друга в деталях. Вообще в сфере поисковых машин постоянно происходит что-то новое — это самая интересная с этой точки зрения область технологий поиска.
Справочные ресурсы
Онлайновые энциклопедии, справочники, переводчики и прочие сервисы, с помощью которых можно быстро получить сжатый и конкретный ответ на прямо поставленный вопрос. Если вам надо узнать название столицы Зимбабве, значение слова "батрахомиомахия" или, например, площадь крыла британского истребителя времен Второй мировой Spitfire IX LF, для этого вовсе не обязательно копаться в куче текстов с разношерстных сайтов — проще и быстрее будет обратиться к тематическому справочнику. Кроме того, у вас будет определенная уверенность в точности полученных фактических сведений, поскольку в данном случае удается избежать эффекта "испорченного телефона" при заимствовании сведений авторами различных веб-ресурсов.
Группы, форумы, рассылки и блоги
Сообщества увлеченных людей — великая вещь. Интернет-технологии значительно упростили их формирование. Практически по любой вменяемой теме можно найти группу людей, так или иначе связанных с предметом поиска и которым действительно есть что сказать. В архивах форумов и рассылок иногда можно отыскать просто удивительные вещи. Можно, наконец, спросить самому — важно только сделать это с умом и культурно. Отдельная область — блоги, которые тоже способны стать хорошим источником информации, благо уже существуют неплохие средства поиска по их содержимому.
Спецпрограммы
Постоянно держать в голове все нюансы работы с различными поисковиками по силам только очень увлеченным людям. Вполне предсказуемым стало стремление переложить часть ноши на плечи машины. В результате появился целый класс программ, так или иначе связанных с поиском информации в Интернете. Разброс характеристик таких пакетов довольно большой: от простеньких утилиток до серьезных комплексов поиска и анализа данных, которые для своей работы требуют солидных ресурсов и немалых капиталовложений. Нормальному пользователю-частнику интересны главным образом следующие виды программ: поисковые плагины и панели для браузеров, инструменты, облегчающие работу с каким-либо конкретным поисковым сервисом, и, наконец, метапоисковые пакеты с возможностями анализа результатов.
Несколько терминов
Говоря о интернет-поиске, нам постоянно придется встречаться с таким понятием, как релевантность. Если выражаться простыми словами, то релевантность — это соответствие ответа поисковому запросу. Таким образом, релевантный ответ — это ответ, максимально соответствующий вашему запросу. В этом заключен важный нюанс релевантности — как говорится в известной пословице, "каков вопрос — таков и ответ". Другими словами, релевантный ответ вполне может оказаться малополезным несмотря на то, что будет самым строгим образом соответствовать запросу. Поэтому упомянем еще одно красивое слово — пертинентность. Это соответствие ответа вашей информационной потребности. Пертинентный ответ — это ответ, содержащий именно необходимую вам информацию, даже если запрос был сформулирован вами не совсем корректно.
"Дайте мне точку опоры…"
Мы постепенно подходим к важному выводу: для того, чтобы получить хороший ответ, надо задавать толковый вопрос и делать это в подходящем месте. Инструментов поиска немало, каждый обладает своими особенностями, которые предполагают определенные достоинства и недостатки. К сожалению, сейчас еще нет единого инструмента, который закрывал бы абсолютно все требования к интернет-поиску. Поэтому при серьезном подходе к делу приходится подбирать собственную "корзинку" инструментов, соответствующих индивидуальным интересам и потребностям.
Алексей Кутовенко, alteridem@tut.by
Компьютерная газета. Статья была опубликована в номере 36 за 2005 год в рубрике интернет :: разное