Интернет-поиск в Google: краткое руководство
Поисковик Google — это, мягко говоря, очень известный и популярный ресурс. Что говорить, если само его название (слегка измененное слово "гугл") вот-вот пропишется в словарях современного английского языка. Огромное количество пользователей ежедневно обращается к Google, не задумываясь о том, что кажущаяся простота этого поисковика — только верхушка айсберга. Не отстают от них владельцы веб-ресурсов и оптимизаторы, прилагающие серьезные усилия для того, чтобы их сайты попали на самые лучшие позиции в результатах поиска Google. Одним словом — всеобщее признание, которое подтверждается в том числе многочисленными публикациями, посвященными Google. Из одних, скажем так, полнометражных книжек о тонкостях работы с этим поисковиком можно составить очень красивую домашнюю библиотечку на нескольких полках. С другой стороны, когда дело доходит до реального поиска, куда полезней оказывается сравнительно краткий справочный материал, первая часть которого и предлагается вашему вниманию.
Паспортный стол
Google использует собственные базы данных. На сегодняшний день в базе проиндексированных страниц Google порядка 8 миллиардов записей. Ее пополнение, по всей видимости, во многом зависит от имеющихся в распоряжении Google ресурсов. Иногда, например, отмечался быстрый скачкообразный рост числа проиндексированных страниц. Одна из особенностей Google, которая позволяет отнести его к так называемому "второму поколению" поисковых систем — это оказавшаяся весьма удобной система сортировки ответов по их релевантности, в основе которой лежит рейтинг страницы. Если до этого алгоритмы определения релевантности в основном занимались анализом содержимого самой страницы, ее заголовков, встречающихся ключевых слов и их комбинаций, то создатели Google пошли несколько иным путем. Принятая система называется PageRank и действует следующим образом. При прочих равных условиях в результатах поиска выше будет позиция страницы, на которую ссылается наибольшее число других популярных страниц. Другими словами, акцент был перенесен от анализа содержимого страниц на анализ цитируемости источников информации. Эффективность работы оказалась весьма высокой, что и сработало в итоге на популярность ресурса. Владельцы и разработчики Google не сидят на месте, с завидной регулярностью предлагая все новые и новые дополнительные сервисы. Поскольку таких услуг у Google сегодня масса, данная тема заслуживает отдельного рассказа.
Базовые возможности
В свое время Google выделился из шеренги конкурентов именно своим максимально простым и мгновенно узнаваемым интерфейсом стартовой страницы. Здесь расположены только ссылки на основные базы данных Google, страницу настроек, расширенный поиск и языковые инструменты. Опция "I'm Feeling Lucky" ("Мне повезет") выдаст вам одну-единственную ссылку, которая была бы первой в результатах обычного поиска. Наконец, самый важный элемент — это строка запроса, с помощью которой, собственно, и происходит взаимодействие с поисковиком. В различных базах данных Google сохраняются общие принципы поиска, но при этом у каждого раздела могут быть и собственные, актуальные только для него, операторы. Так, например, для поиска в Google Groups может применяться оператор inauthor, малополезный для поиска в других базах. Во многих случаях для того, чтобы найти нужную информацию, достаточно просто набрать нужное слово и просмотреть первый десяток-полтора результатов. Существует три основных способа работы с Google. Это строка простого поиска, которую мы и видим по адресу google.com, расширенный поиск и прямая работа с URL. Каждый из названных способов по-своему хорош. Простейший запрос к Google — это одно слово или же сочетание слов. В более сложных случаях после отработки первоначального запроса начинается работа по коррекции запроса и постепенному отбрасыванию ненужных ссылок. Еще один широко распространенный вид простого поиска — поиск на точное совпадение фразы. Фраза в данном случае — это несколько слов, заключенных в кавычки. При этом поиск ведется по всем словам без исключения, учитывается также их порядок в вашем запросе. Эти виды поиска можно комбинировать. Значительно расширить гибкость поиска позволяет использование операторов — специальных команд поиска, позволяющих уточнить запрос.
Страница результатов
Вне зависимости от способа поиска его конечный продукт — страница результатов. Кроме собственно ссылок на релевантные веб-страницы, здесь присутствует ряд вспомогательных элементов. Это ссылки на другие базы данных Google (Группы, Новости, Картинки, ссылки на словари), щелкнув по которым вы перенаправите свой запрос к нужной базе, число найденных страниц и время обработки запроса. Кроме этого, в результатах поиска могут появляться и сообщения Google, с помощью которых можно уточнять свой запрос. Для каждой найденной ссылки обязательно указывается имя сайта, краткая выдержка из текста страницы, дата включения страницы в базу данных Google. Щелкнув по соответствующей ссылке, можно открыть кэшированный вариант страницы. Доступна служба перевода страниц. Автоматически переведенные на поддерживаемые системой языки страницы хранятся на серверах Google, которые в данном случае играют роль своеобразных прокси. Немного поработав с URL запроса, можно получить прямой доступ к таким страницам.
Расширенный поиск
Разделы расширенного поиска на поисковых ресурсах предлагают своеобразные конструкторы для составления сложных запросов. Не является исключением и Google. Главное назначение его страницы расширенного поиска — упростить работу с комплексными запросами. В результате с помощью такого раздела можно составить довольно сложный запрос, не особо вникая в тонкости применяемого языка запросов. В данном разделе можно выделить несколько областей, отвечающих за разные параметры будущего запроса. Первая и наиболее востребованная позволяет работать с логическими операторами И, ИЛИ, НЕ. В данном случае это поля "все слова" (И), "точная фраза", "любое из слов" (ИЛИ), "без слов" (НЕ). Про некоторые особенности использования логических операторов в Google мы поговорим ниже.
Вторая область дает возможность указать такие параметры, как язык документа и дата его включения в базу, а также формат файла. Не забывайте, что Google хорош для поиска не только веб-страниц, но и файлов многих других типов. Отдельно отметим возможность поиска по конкретному сайту или домену, адрес которого можно указать в соответствующем поле. Если на каком-либо интересном ресурсе отсутствует собственная толковая система поиска, этот вариант может быть хорошим способом найти нужные вам сведения. Полезным подспорьем может стать поиск страниц, ссылающихся на указанную вами страницу, а также документов с похожим содержанием. В оригинальной версии Google доступен поиск в некоторых тематических разделах, например, сведений, относящихся к Apple, BSD, Unix и Linux.
Логические операторы
Язык запросов Google — предмет особой и заслуженной гордости его создателей. Логические операторы — это простейшие, но, тем не менее, очень важные элементы этого языка. Если быть кратким, то применение логических операторов позволяет расширить запрос или, наоборот, сделать его более конкретным. При самостоятельном составлении запроса вы можете как указывать имя логического оператора, так и воспользоваться спецсимволом. По умолчанию Google воспринимает любой запрос из нескольких слов так, как будто между ними поставлены логические операторы AND (И). При этом автоматически отбрасываются слова, не несущие смысловой нагрузки, например, предлоги, а в случае иноязычного поиска — артикли. Данному оператору соответствует спецсимвол (+). "Плюс", поставленный перед любым словом запроса, заставит Google обязательно учесть это слово при обработке запроса. "Минус" (-) соответствует оператору NOT (НЕ) и работает на исключение термина из результатов. Таким образом, оператор NOT — первое средство уточнения чересчур широких запросов. Названные знаки (+ и -) ставятся в запросе перед нужным словом, при этом они не должны отделяться от него пробелами.
Оператор OR (ИЛИ) полезен в первую очередь для тех случаев, когда у нужного термина есть синонимы, или если его правильное написание еще не устоялось. Ему соответствует символ (|). В качестве яркого примера пользы данного оператора может выступить поиск информации по многострадальному термину "фаерволл", который авторы публикаций могут назвать как угодно: файрволл, файерволл, брандмауэр, межсетевой экран — кому как больше нравится. В результате у простых пользователей появляется реальный и неприятный шанс упустить полезный материал только из-за того, что автор выбрал наиболее правильный, по его мнению, вариант написания термина. Кроме этих общеизвестных операторов, Google позволяет использовать в запросах спецсимволы "*" и "~". Первый означает подстановку в запрос одного любого слова (обратите внимание: не знака, а именно слова), при этом, если вы поставите две "звездочки", то будут найдены все документы с двумя любыми словами на месте звездочек. Тем самым можно задавать точные промежутки между частями поисковой фразы. Применение спецсимвола "~" дает Google команду искать не только указанное вами слово, но и его синонимы. Результат такого поиска может быть весьма полезным, но не всегда предсказуемым.
Для любых запросов Google действует несколько простых правил. Запросы нечувствительны к регистру символов. Это значит, что для Google нет никакой разницы, будет запрос набран одними прописными, одними строчными буквами или вообще вперемешку. Из этого правила существует одно исключение — слово "or". Если вы хотите использовать его как логический оператор, то должны набирать OR. Как уже отмечалось, при поиске Google пропускает некоторые слова, не несущие смысловой нагрузки, а также одиночные цифры. Иногда Google автоматически ищет по сокращениям, принятым для слов, включенных вами в свой запрос, что может быть полезным, но может и помешать. Обойти данные ограничения можно либо задав в строке поиска всего одно любое слово или же заключив запрос с такими проблемными словами в кавычки, то есть произведя поиск по фразе. Запрос Google может состоять максимум из десяти слов, при этом считаются как собственно ключевые слова, так и операторы. Это ограничение можно обойти, например, заменив все слова, которые Google и так проигнорирует (все те же предлоги, артикли и т.п.), на звездочки. При расчете длины запроса Google такие символы не учитывает, и у вас появится возможность добавить пару-тройку дополнительных полезных условий.
Если вы используете в своем запросе сразу несколько операторов, то не лишним будет вспомнить о порядке разбора такого запроса, что может оказать влияние на рейтинг найденных ссылок и, следовательно, их место в результатах поиска. Правила таковы: Google разбирает ваш запрос справа налево, рассматривая специальные операторы, логические OR и логические AND. Таким образом, его логика может показаться несколько своеобразной, однако ничего сложного здесь на самом деле нет. Приведем абстрактный пример:
зеленый | красный intext:теплый | холодный filetype:pdf
Он будет разобран следующим образом: вначале будут найдены ссылки на документы, в которых содержатся слова "зеленый" или "красный". Затем из этого набора будут выбраны только документы, в тексте которых, кроме этого, еще присутствуют слова "теплый" или "холодный". Более того, на странице результатов будут показаны только ссылки на pdf-файлы. Для собственного удобства при составлении таких запросов можете использовать скобки — Google не обращает на них внимания.
(зеленый | красный) intext:(теплый | холодный) filetype:pdf
Первые итоги
Google по праву считается одним из лучших на сегодняшний день поисковиков. Он предлагает очень гибкие инструменты поиска — от самых простых до самых мощных. Мы довольно подробно ознакомились с веб-интерфейсом Google, и это не просто дань уважения проекту. Дело в том, что подобная конструкция поискового интерфейса и страниц результатов на сегодняшний день, по сути, стала своеобразным стандартом и применяется многими другими поисковыми ресурсами. Один раз обсудив ее подробно, мы тем самым сбережем свое время при рассмотрении других проектов. Язык запросов Google предоставляет все необходимое для глубокого поиска и даже немного больше. Возможность постепенного уточнения запроса позволяет рассчитывать на успех даже при самой широкой тематике поиска. Что касается выбора способа поиска (базовый, расширенный или прямая работа с URL), то здесь универсального рецепта нет. Просто стоит помнить, что, начиная работать с простым поиском, вы всегда сможете при необходимости переключиться в режим расширенного. В то же время некоторые дополнительные параметры будет удобнее добавить прямо в строку URL, так что все эти способы хорошо дополняют друг друга. Не стоит забывать и о специализированных программах, способных упростить работу с Google, так что у вас всегда есть выбор.
В следующих статьях мы пойдем дальше и рассмотрим дополнительные сервисы, предлагаемые Google, а также обратимся к приемам составления сложных запросов и технике прямой работы с URL.
Алексей Кутовенко, alteridem@tut.by
Паспортный стол
Google использует собственные базы данных. На сегодняшний день в базе проиндексированных страниц Google порядка 8 миллиардов записей. Ее пополнение, по всей видимости, во многом зависит от имеющихся в распоряжении Google ресурсов. Иногда, например, отмечался быстрый скачкообразный рост числа проиндексированных страниц. Одна из особенностей Google, которая позволяет отнести его к так называемому "второму поколению" поисковых систем — это оказавшаяся весьма удобной система сортировки ответов по их релевантности, в основе которой лежит рейтинг страницы. Если до этого алгоритмы определения релевантности в основном занимались анализом содержимого самой страницы, ее заголовков, встречающихся ключевых слов и их комбинаций, то создатели Google пошли несколько иным путем. Принятая система называется PageRank и действует следующим образом. При прочих равных условиях в результатах поиска выше будет позиция страницы, на которую ссылается наибольшее число других популярных страниц. Другими словами, акцент был перенесен от анализа содержимого страниц на анализ цитируемости источников информации. Эффективность работы оказалась весьма высокой, что и сработало в итоге на популярность ресурса. Владельцы и разработчики Google не сидят на месте, с завидной регулярностью предлагая все новые и новые дополнительные сервисы. Поскольку таких услуг у Google сегодня масса, данная тема заслуживает отдельного рассказа.
Базовые возможности
В свое время Google выделился из шеренги конкурентов именно своим максимально простым и мгновенно узнаваемым интерфейсом стартовой страницы. Здесь расположены только ссылки на основные базы данных Google, страницу настроек, расширенный поиск и языковые инструменты. Опция "I'm Feeling Lucky" ("Мне повезет") выдаст вам одну-единственную ссылку, которая была бы первой в результатах обычного поиска. Наконец, самый важный элемент — это строка запроса, с помощью которой, собственно, и происходит взаимодействие с поисковиком. В различных базах данных Google сохраняются общие принципы поиска, но при этом у каждого раздела могут быть и собственные, актуальные только для него, операторы. Так, например, для поиска в Google Groups может применяться оператор inauthor, малополезный для поиска в других базах. Во многих случаях для того, чтобы найти нужную информацию, достаточно просто набрать нужное слово и просмотреть первый десяток-полтора результатов. Существует три основных способа работы с Google. Это строка простого поиска, которую мы и видим по адресу google.com, расширенный поиск и прямая работа с URL. Каждый из названных способов по-своему хорош. Простейший запрос к Google — это одно слово или же сочетание слов. В более сложных случаях после отработки первоначального запроса начинается работа по коррекции запроса и постепенному отбрасыванию ненужных ссылок. Еще один широко распространенный вид простого поиска — поиск на точное совпадение фразы. Фраза в данном случае — это несколько слов, заключенных в кавычки. При этом поиск ведется по всем словам без исключения, учитывается также их порядок в вашем запросе. Эти виды поиска можно комбинировать. Значительно расширить гибкость поиска позволяет использование операторов — специальных команд поиска, позволяющих уточнить запрос.
Страница результатов
Вне зависимости от способа поиска его конечный продукт — страница результатов. Кроме собственно ссылок на релевантные веб-страницы, здесь присутствует ряд вспомогательных элементов. Это ссылки на другие базы данных Google (Группы, Новости, Картинки, ссылки на словари), щелкнув по которым вы перенаправите свой запрос к нужной базе, число найденных страниц и время обработки запроса. Кроме этого, в результатах поиска могут появляться и сообщения Google, с помощью которых можно уточнять свой запрос. Для каждой найденной ссылки обязательно указывается имя сайта, краткая выдержка из текста страницы, дата включения страницы в базу данных Google. Щелкнув по соответствующей ссылке, можно открыть кэшированный вариант страницы. Доступна служба перевода страниц. Автоматически переведенные на поддерживаемые системой языки страницы хранятся на серверах Google, которые в данном случае играют роль своеобразных прокси. Немного поработав с URL запроса, можно получить прямой доступ к таким страницам.
Расширенный поиск
Разделы расширенного поиска на поисковых ресурсах предлагают своеобразные конструкторы для составления сложных запросов. Не является исключением и Google. Главное назначение его страницы расширенного поиска — упростить работу с комплексными запросами. В результате с помощью такого раздела можно составить довольно сложный запрос, не особо вникая в тонкости применяемого языка запросов. В данном разделе можно выделить несколько областей, отвечающих за разные параметры будущего запроса. Первая и наиболее востребованная позволяет работать с логическими операторами И, ИЛИ, НЕ. В данном случае это поля "все слова" (И), "точная фраза", "любое из слов" (ИЛИ), "без слов" (НЕ). Про некоторые особенности использования логических операторов в Google мы поговорим ниже.
Вторая область дает возможность указать такие параметры, как язык документа и дата его включения в базу, а также формат файла. Не забывайте, что Google хорош для поиска не только веб-страниц, но и файлов многих других типов. Отдельно отметим возможность поиска по конкретному сайту или домену, адрес которого можно указать в соответствующем поле. Если на каком-либо интересном ресурсе отсутствует собственная толковая система поиска, этот вариант может быть хорошим способом найти нужные вам сведения. Полезным подспорьем может стать поиск страниц, ссылающихся на указанную вами страницу, а также документов с похожим содержанием. В оригинальной версии Google доступен поиск в некоторых тематических разделах, например, сведений, относящихся к Apple, BSD, Unix и Linux.
Логические операторы
Язык запросов Google — предмет особой и заслуженной гордости его создателей. Логические операторы — это простейшие, но, тем не менее, очень важные элементы этого языка. Если быть кратким, то применение логических операторов позволяет расширить запрос или, наоборот, сделать его более конкретным. При самостоятельном составлении запроса вы можете как указывать имя логического оператора, так и воспользоваться спецсимволом. По умолчанию Google воспринимает любой запрос из нескольких слов так, как будто между ними поставлены логические операторы AND (И). При этом автоматически отбрасываются слова, не несущие смысловой нагрузки, например, предлоги, а в случае иноязычного поиска — артикли. Данному оператору соответствует спецсимвол (+). "Плюс", поставленный перед любым словом запроса, заставит Google обязательно учесть это слово при обработке запроса. "Минус" (-) соответствует оператору NOT (НЕ) и работает на исключение термина из результатов. Таким образом, оператор NOT — первое средство уточнения чересчур широких запросов. Названные знаки (+ и -) ставятся в запросе перед нужным словом, при этом они не должны отделяться от него пробелами.
Оператор OR (ИЛИ) полезен в первую очередь для тех случаев, когда у нужного термина есть синонимы, или если его правильное написание еще не устоялось. Ему соответствует символ (|). В качестве яркого примера пользы данного оператора может выступить поиск информации по многострадальному термину "фаерволл", который авторы публикаций могут назвать как угодно: файрволл, файерволл, брандмауэр, межсетевой экран — кому как больше нравится. В результате у простых пользователей появляется реальный и неприятный шанс упустить полезный материал только из-за того, что автор выбрал наиболее правильный, по его мнению, вариант написания термина. Кроме этих общеизвестных операторов, Google позволяет использовать в запросах спецсимволы "*" и "~". Первый означает подстановку в запрос одного любого слова (обратите внимание: не знака, а именно слова), при этом, если вы поставите две "звездочки", то будут найдены все документы с двумя любыми словами на месте звездочек. Тем самым можно задавать точные промежутки между частями поисковой фразы. Применение спецсимвола "~" дает Google команду искать не только указанное вами слово, но и его синонимы. Результат такого поиска может быть весьма полезным, но не всегда предсказуемым.
Для любых запросов Google действует несколько простых правил. Запросы нечувствительны к регистру символов. Это значит, что для Google нет никакой разницы, будет запрос набран одними прописными, одними строчными буквами или вообще вперемешку. Из этого правила существует одно исключение — слово "or". Если вы хотите использовать его как логический оператор, то должны набирать OR. Как уже отмечалось, при поиске Google пропускает некоторые слова, не несущие смысловой нагрузки, а также одиночные цифры. Иногда Google автоматически ищет по сокращениям, принятым для слов, включенных вами в свой запрос, что может быть полезным, но может и помешать. Обойти данные ограничения можно либо задав в строке поиска всего одно любое слово или же заключив запрос с такими проблемными словами в кавычки, то есть произведя поиск по фразе. Запрос Google может состоять максимум из десяти слов, при этом считаются как собственно ключевые слова, так и операторы. Это ограничение можно обойти, например, заменив все слова, которые Google и так проигнорирует (все те же предлоги, артикли и т.п.), на звездочки. При расчете длины запроса Google такие символы не учитывает, и у вас появится возможность добавить пару-тройку дополнительных полезных условий.
Если вы используете в своем запросе сразу несколько операторов, то не лишним будет вспомнить о порядке разбора такого запроса, что может оказать влияние на рейтинг найденных ссылок и, следовательно, их место в результатах поиска. Правила таковы: Google разбирает ваш запрос справа налево, рассматривая специальные операторы, логические OR и логические AND. Таким образом, его логика может показаться несколько своеобразной, однако ничего сложного здесь на самом деле нет. Приведем абстрактный пример:
зеленый | красный intext:теплый | холодный filetype:pdf
Он будет разобран следующим образом: вначале будут найдены ссылки на документы, в которых содержатся слова "зеленый" или "красный". Затем из этого набора будут выбраны только документы, в тексте которых, кроме этого, еще присутствуют слова "теплый" или "холодный". Более того, на странице результатов будут показаны только ссылки на pdf-файлы. Для собственного удобства при составлении таких запросов можете использовать скобки — Google не обращает на них внимания.
(зеленый | красный) intext:(теплый | холодный) filetype:pdf
Первые итоги
Google по праву считается одним из лучших на сегодняшний день поисковиков. Он предлагает очень гибкие инструменты поиска — от самых простых до самых мощных. Мы довольно подробно ознакомились с веб-интерфейсом Google, и это не просто дань уважения проекту. Дело в том, что подобная конструкция поискового интерфейса и страниц результатов на сегодняшний день, по сути, стала своеобразным стандартом и применяется многими другими поисковыми ресурсами. Один раз обсудив ее подробно, мы тем самым сбережем свое время при рассмотрении других проектов. Язык запросов Google предоставляет все необходимое для глубокого поиска и даже немного больше. Возможность постепенного уточнения запроса позволяет рассчитывать на успех даже при самой широкой тематике поиска. Что касается выбора способа поиска (базовый, расширенный или прямая работа с URL), то здесь универсального рецепта нет. Просто стоит помнить, что, начиная работать с простым поиском, вы всегда сможете при необходимости переключиться в режим расширенного. В то же время некоторые дополнительные параметры будет удобнее добавить прямо в строку URL, так что все эти способы хорошо дополняют друг друга. Не стоит забывать и о специализированных программах, способных упростить работу с Google, так что у вас всегда есть выбор.
В следующих статьях мы пойдем дальше и рассмотрим дополнительные сервисы, предлагаемые Google, а также обратимся к приемам составления сложных запросов и технике прямой работы с URL.
Алексей Кутовенко, alteridem@tut.by
Компьютерная газета. Статья была опубликована в номере 37 за 2005 год в рубрике soft :: разное