Интернет-поиск в Google. Операторы и URL

Если верить некоторым недавним исследованиям, подавляющее большинство посетителей поисковиков вообще не применяет никаких дополнительных инструментов поиска, кроме самых простых запросов. По данным "Артон Консалтинг", полученным в результате анализа деятельности порядка 100 тысяч пользователей "рунетовских" поисковиков, до "расширенного" поиска, не говоря уже о языке запросов, добирается менее двух процентов посетителей. Данные свежие, датированы августом текущего года. Что тут сказать? С одной стороны, 98% людей, похоже, вполне удовлетворены результатами такого поиска, или, по крайней мере, привыкли к нему. Честь и хвала разработчикам поисковиков за такой результат. С другой — возможно, эти пользователи просто не знакомы с продвинутыми инструментами и не подозревают, что теряют хороший кусок полезной информации. В предыдущей статье мы ознакомились с базовыми техниками поиска в Google с помощью веб-интерфейса, а также логическими операторами. Сейчас пойдем дальше и сосредоточимся на тех средствах, которые позволят самостоятельно создавать свои запросы. Попробуем хоть немного увеличить процент, скажем так, требовательных пользователей — не все же технике простаивать.

Языковые инструменты


По умолчанию Google ищет документы на всех поддерживаемых языках, которых на данный момент уже добрых три десятка. Кроме этого, Google умеет разделять сайты по географическому признаку. Увидеть действие этого инструмента можно уже при знакомстве со стартовой страницей поисковика: Google располагает хорошим выбором "национальных" версий своего интерфейса, на которых предусмотрен переключатель поиска во всех документах или же в определенном подмножестве, выделенном как раз по национальному признаку. При желании проверить работу этой функции можно с помощью whois. При необходимости можно ограничить поиск документами на определенном языке. Самый простой способ — открыть страницу "Языковые настройки" и выставить их по собственному вкусу. Там нет ничего сложного, поэтому останавливаться подробно мы здесь не будем.

Операторы

Язык запросов — предмет заслуженной гордости создателей Google. Для составления запросов применяются специальные командные слова — операторы. Запросы с использованием операторов можно составлять в строке поиска Google на стартовой странице поисковика. Кроме операторов, в запросе, само собой разумеется, должны присутствовать и те слова или фразы, которые вы, собственно, рассчитываете отыскать. Знакомство с доступными операторами стоит потраченного времени, тем более, что похожие возможности присутствуют и во многих других поисковиках, поэтому впредь нам уже не придется повторяться. Перейдем к делу. Общее правило использования операторов таково: вы указываете оператор, ставите двоеточие, а затем без пробела набираете нужное значение, то есть искомое слово или фразу. Поисковые операторы Google можно разделить на несколько групп. Давайте кратко по ним пройдемся. Первая группа операторов связана с поиском по определенным ресурсам или в заданных частях документа. Ограничить поиск каким-либо конкретным сайтом можно с помощью оператора site. Так, например, запрос google site:nestor.minsk.by/kg/ вернет ссылки на страницы сайта "Компьютерной Газеты", на которых упоминается Google. Именно с помощью данного оператора можно разобраться в данных сайта, собственная поисковая система которого может быть не самой лучшей. Есть здесь и обратная сторона медали: Google мог проиндексировать не все документы ресурса, поэтому, применяя данный способ, стоит помнить про это ограничение. Еще один способ использования оператора site — ограничение результатов поиска определенным доменом. Примеры — site:by, site:ru.

Перейдем от уровня сайта к уровню отдельных элементов страницы. Google позволяет искать практически по всем значимым тегам разметки, что представляет особый интерес. Оператор intitle ищет в заголовках страниц, то есть в содержимом тега <title>. Результат, аналогичный применению оператора intitle, можно получить с помощью страницы расширенного поиска Google, если внести в поля поиска свои ключевые слова, после чего выбрать в меню "Показывать результаты, содержащие эти слова" пункт "В заголовке страницы". Особенно хорош данный оператор в сочетании с другими поисковыми признаками. Существует два варианта этого оператора: intitle и allintitle. Разница между ними заключается в том, что первый оператор ищет в заголовках только одно заданное вами слово или же конкретную фразу (в этом случае ее надо будет заключить в кавычки). Если же вы примените allintitle, то также сможете искать сразу несколько слов, однако, в отличие от поиска по фразе, порядок их расположения учитываться не будет. Кавычки в данном случае не понадобятся. Данные операторы можно комбинировать с простым поиском, причем получить такую комбинацию с использованием инструментов расширенного поиска не так-то просто, поскольку, выбрав нужный пункт в меню, вы примените его ко всем словам запроса. Составляя запрос самостоятельно, вы сможете действовать куда более гибко. Вот пример подобного запроса:

саммит intitle:оон

Оператор intext в свою очередь ищет в самом тексте документа, и только в нем. Это может принести определенную пользу в случае, например, неинформативных или чересчур широких заголовков, зачастую не релевантных основному содержимому страницы.
Еще одна группа операторов так или иначе связана с обработкой ссылок на страницах. Как и в случае с заголовками, здесь тоже можно составлять прямые запросы или же воспользоваться средствами страницы расширенного поиска. Оператор inanchor обеспечивает поиск в тексте ссылок, расположенных на странице. Оператор inurl ищет заданное слово в самой строке адреса, на который ведет ссылка. Оператор link позволяет отловить документы, в которых содержится ссылка на конкретную страницу, найдя тем самым ресурсы, процитировавшие сведения, взятые с конкретной страницы.

Марс inanchor:lenta.ru

Оператор filetype отвечает за поиск по определенным типам файлов (pdf, ps, rtf, doc, xls, ppt и др.) благо Google здесь действительно есть чем похвастаться — набор типов файлов действительно хорош. Наконец, есть группа операторов, предоставляющих ряд дополнительных возможностей Google. Оператор related дает возможность искать страницы, содержание которых подобно контенту уже известной вам страницы ("similar pages"). Пользуясь данным оператором, будьте готовы к тому, что результаты такого поиска не всегда бывают точными. Как известно, Google сохраняет копии индексируемых документов. Получить такую версию можно с помощью оператора cache, после которого указывается URL требуемой страницы. Полезная вещь при работе с часто изменяющимися ресурсами. Еще один служебный оператор — info — выдает сведения о странице, адрес которой вы укажете.

info:rumodelism.com

Работа с URL

Любой запрос к Google можно представить в виде ссылки, ведущей на страницу результатов поиска. Эти страницы динамические и генерируются при поступлении вашего запроса. Благодаря этому вы можете получить свой список результатов как воспользовавшись веб-интерфейсом Google, так и перейдя по соответствующим образом сконструированной ссылке, причем результат будет совершенно одинаковый. Такую ссылку можно сохранить в закладках браузера или другом нужном месте. Обращаясь к ней время от времени, вы будете получать свежие результаты поиска по данному запросу, что может быть весьма удобно. Давайте вкратце рассмотрим синтаксис такого прямого URL-запроса. Простейшая ссылка-запрос к Google, которая будет искать страницы о самом Google выглядит так:

www.google.com/search?q=google

Главный параметр здесь — search?q=, после которого идет сам запрос. В более сложных вариантах добавляются новые параметры, указывающие различные поисковые признаки и условия, включенные в запрос. Именно они и выступают в роли своеобразных "кирпичиков", из которых составляется URL запроса. Взаимное расположение дополнительных параметров может быть любым. Это значит, что вы можете ставить их в том порядке, в котором вам удобно — для Google нет никакой разницы, и это стоит учесть. Прямая работа с URL полезна, когда вам периодически приходится делать повторяющиеся сложные запросы. Затраты времени на однократное составление такого запроса и последующую подстановку нужных ключевых слов намного меньше затрат на постоянную работу с расширенным поиском. Меняя переменные части запроса, вы сможете использовать однажды сконструированную сложную ссылку для поиска по разным ключевым словам или другим поисковым признакам. Такой подход используется в некоторых программах, предназначенных для работы с интернет-поисковиками. Некоторые наиболее востребованные параметры, используемые в URL запросов к Google, приведены в таблице. Всего их несколько десятков. Самостоятельно выявить недостающие параметры можно составляя запросы с помощью веб-интерфейса и отслеживая изменения, происходящие в адресе страницы результатов. Поэкспериментируйте, и все быстро станет на свои места.



ПеременнаяЗначение
Num maxResultsКоличество результатов на странице
FilterФильтр потенциально дублирующихся результатов. Имеет два значения: 0 (не показывать дубликаты) и 1 (показывать дубликаты)
hlКод языка, используемого Google при показе результатов (не имеет отношения к переводу страниц или их языку)
restrictОтбор результатов по географическому признаку. Необходимо указать код страны
lrОтбор результатов по языковому признаку. Необходимо указать код языка (например, ru)
as_oqКоманда найти хотя бы одно из нескольких заданных слов (аналог оператора ИЛИ)
as_epqПоиск фразы
titleПоиск в заголовках
bodyПоиск в тексте документа
urlПоиск в URL на странице
linksПоиск в ссылках
as_rqСтраницы, подобные указанной
as_lqСтраницы, ссылающиеся на указанный документ
as_ft iПоиск документов указанных форматов. Если ставится 'i', то указанные типы документов включаются в запрос, если 'e' — исключаются из запроса. Пример: as_ft i =pdf
as_dt iПоиск только по конкретному домену или сайту. Если указывается 'i', указанный адрес включается в запрос, если 'e' — исключается из запроса.
as_sitesearchВключить домен или сайт в поиск


Темная сторона Google

Механизмы глубокой индексации, применяемые Google в сочетании с гибким языком запросов, позволяют успешно применять его для поиска информации, совершенно не предназначенной для посторонних глаз. Иногда такие сведения могут представлять интерес и в "мирных" целях, однако не стоит забывать о существовании границы между просто глубоким поиском информации и банальным злым умыслом. Как известно, лекарство от яда может отличаться только дозировкой. Для таких целей применяются самые что ни на есть стандартные возможности Google, просто запросы формулируются весьма вдумчиво и с полным осознанием совершаемых действий. Таким образом, это скорее искусство анализа объекта поиска и навык задавать вопросы с учетом возможностей Google, а не знание каких-то недокументированных инструментов. Примером использования такого приема может служить поиск по определенным словам и конструкциям, встречающимся на служебных страницах внутренних каталогов сайтов, что позволяет найти хранящиеся в них файлы даже если на них не существует ни одной ссылки с других веб-страниц.

Справедливости ради отметим, что такой подход применим не только к Google, но и к другим поисковикам, для которых соблюдаются два названных условия: глубокая индексация и гибкий язык запросов. Стоит учесть, что при желании, приложив не такие уж большие усилия, можно приобрести лицензию на использование Google API, написать соответствующую программу и автоматизировать процесс такого поиска, а это уже может быть серьезно. В свете этого владельцам более-менее серьезных веб-проектов необходимо внимательно относиться к безопасности своих ресурсов в данном аспекте.

Финал

Выше были рассмотрены наиболее востребованные в повседневной деятельности операторы Google. Тонкостей в их использовании и комбинировании более чем достаточно, поэтому мы еще будем время от времени возвращаться к этой теме. Однако Google — это не только поиск документов, но и целый набор самых разнообразных сервисов, дополняющих базовые возможности веб-поисковика. Именно эти сервисы и станут темой следующей статьи, посвященной Google.

Алексей Кутовенко, alteridem@tut.by


Компьютерная газета. Статья была опубликована в номере 38 за 2005 год в рубрике soft :: разное

©1997-2024 Компьютерная газета