Персональный поиск Google

Совсем недавно на страницах Компьютерной газеты гостил лучший российский представитель класса персональных поисковых интернет-машин – Flexum (см. КГ №6, 2010). Мировым же лидером, как по известности, так и по количеству созданных поисковиков в настоящее время является система Google Custom Search Engine (Google Пользовательский поиск). Именно о ней и пойдет речь в данном обзоре.

Позволю себе небольшой повтор: системами пользовательского поиска называются сервисы, которые позволяют самостоятельно определять набор сайтов, на которые отправляется поисковый запрос. Такие системы особенно эффективны для построения тематических поисковиков и организации поиска по конкретным сайтам. Пользовательский поиск Google приспособлен для решения первой названной задачи, поскольку для создания систем поиска отдельных сайтов у Google есть отдельный продукт – Google Site Search.
Поскольку Пользовательский поиск Google хорош для тематического поиска, в первую очередь необходимо определиться с интересующей вас сферой его будущей работы. Варианты могут быть самыми разными – главное, чтобы вам были хорошо знакомы соответствующие интернет-ресурсы. Следующий шаг - регистрация в системе Google Custom Search Engine (www.google.com/coop/cse). Если у вас уже есть аккаунт Google, заходите в систему с его помощью.

Первый этап работы над поисковиком – определение его основных настроек. Это название будущей машины и набор соответствующих ей ключевых слов. Подойдите внимательно к их выбору. Дело в том, что они будут использоваться для определения релевантности и, соответственно, позиции в выдаче результатов вашего поисковика. Важной также является настройка режимов работы. Их доступно два: поиск только по указанным сайтам или же поиск по всему Интернету, но с приоритетом включенных в персональный индекс ресурсов.

Для управления поисковиком применяется «Панель инструментов», которая содержит ряд разделов. Пожалуй, большую часть времени вам придется провести на закладке «Сайты». Именно здесь проходит наиболее ответственный и трудоемкий этап создания машины – наполнение индексной базы персонального поисковика. Данный раздел разбит на две части: включенные сайты и исключенные сайты. Внося нужные адреса в первый раздел, мы включаем их в индекс. Раздел исключенных ресурсов применяется в основном для сокращения информационного шума. При добавлении ресурса указывается его URL, а также режим поиска: по всему сайту, только по указанной странице, по заданной маске. В масках можно использовать стандартные спецсимволы. Примеры масок приведены в прилагаемой таблице. Интересный режим индексации – автоматический поиск ссылок на указанной вами веб- странице и добавление их к индексу поисковика. Это очень удобно для обработки различных тематических каталогов. Следует помнить, что извлеченные таким образом ссылки не попадают в общий список проиндексированных ресурсов. Как показывает практика, включив такой режим, затем зачастую приходится поработать с разделом исключенных ресурсов, чтобы убрать из выдачи лишние, нерелевантные результаты.

Особенность Персонального поиска Google состоит в том, что он работает только с индексной базой Google. Это приводит к некоторым результатам, как положительным, так и отрицательным. В «плюс» пойдет тот факт, что в нашем распоряжении сразу же оказывается крупнейшая на сегодня индексная база интернет-ресурсов. Поскольку страницы уже проиндексированы, ваш персональный поиск Google начинает работать сразу же после добавления к нему сайтов. Соответствующая опция предлагается непосредственно в ходе создания нового поисковика. Здесь не надо ждать несколько дней, как в случае использования Flexum. Это очень привлекательно – получить немедленный результат. Кроме того, это удобно для быстрой отладки системы. Недостатки Персонального поиска Google являются продолжением его достоинств. Поиск будет ограничен готовой индексной базой Google. Да, на сегодняшний день она крупнейшая, однако далеко не единственная. Пользуясь данной системой, мы автоматически лишаемся ресурсов, которые в силу различных причин в нее не попали или были проиндексированы поверхностно.

Итак, ваш поисковик, в принципе, уже готов к работе. Для каждой системы на серверах Google создается персональная веб-страница, на которой выводятся основные сведения о поисковике, а также предлагается собственно форма составления запроса. Однако для «продвинутых» пользователей это только начало работы, поскольку Персональный поиск Google не только прост в начальной настройке, но и предлагает хорошие возможности управления собственной интернет-машиной. Давайте пройдемся по некоторым предлагаемым вкладкам Панели инструментов.
Пожалуй, наиболее востребованным после закладки «Сайты» будет раздел «Уточнения». Эти элементы позволяют присваивать сайтам тематические ярлыки-теги. Они затем демонстрируются как отдельные разделы результатов выдачи персонального поисковика.

Для запуска системы уточнений сначала понадобится составить список тематических ярлыков, а затем по мере необходимости присваивать их нужным ресурсам, включаемым в индекс персонального поисковика. Одному сайту может быть присвоено несколько тематических меток.

Система уточнений способна работать в двух режимах. Первый включает в результаты поиск только те сайты, которые были отмечены этим ярлыком. Второй режим менее радикален: поиск ведется по всей базе, но сайты, отмеченные выбранным ярлыком, выводятся на первые позиции. Выбор режимов осуществляется в настройках нового уточнения.
Закладка «Продвижения» позволяет выдвинуть на первые позиции в результатах нужные вам сайты. Для этого понадобится указать набор ключевых слов, при поиске которых будет срабатывать продвижение, а также имя продвижения и нужный URL.

На закладке «Статистика» можно просмотреть сведения о загруженности вашего поисковика. Показывается количество запросов к машине за день, неделю, месяц и за все время ее существования. Кроме того, на данной странице выводится список наиболее популярных запросов к вашей системе поиска.

Закладка «Совместная работа» позволяет привлечь к работе над поисковиком других пользователей. Для этого понадобится сначала отправить им соответствующие приглашения, а затем, после получения ответов, подтвердить их полномочия в системе.

Вся информация о персональном поисковике Google хранится в двух XML-файлах: файле контекста и файле аннотаций. В первом из них задаются общие настройки системы. По сути, именно туда отправляются все сведения, которые вы указывали при регистрации поисковика. Файл аннотаций содержит перечни сайтов вашего поисковика. При необходимости эти файлы можно скачать и отредактировать вручную. Кроме того, пользователям персонального поиска доступен ряд уникальных опций по работе с этими XML-файлами.

Нельзя не упомянуть о так называемых «связанных системах персонального поиска». Использование этой технологии позволяет «на лету» изменять индекс своего поисковика. Для этого достаточно создать на своем сайте соответствующим образом отформатированный файл настроек поисковика (XML- фид) и подключить его к своему поисковику на закладке «Дополнительно». В результате соответствующие настройки будут подгружаться непосредственно при обращении пользователя к поисковику. В руках опытного разработчика такие внешние настроечные файлы становятся очень мощным средством работы с персональным поиском на базе Google, поскольку создавать их можно любым удобным способом. Например, генерировать с помощью сторонней программы. Кроме того, свой индекс можно аналогичным образом пополнять сведениями из RSS-лент.

Для наполнения поисковика можно использовать инструмент «Указатель» (Google Marker). Он представляет собой дополнение к браузеру, с помощью которого можно добавлять сайты во время серфинга, без захода на сайт Google Custom Search. Работа с ним очень проста. На панель браузера добавляется соответствующая кнопка, которая открывает окно с формой добавления сайта. В ней указывается поисковик, в индекс которого мы хотим добавить сайт (работает, если у вас несколько поисковиков), а также список тематических ярлыков, которые мы можем присвоить сохраняемому ресурсу.

Кроме работы со стандартной страницей поисковика, можно экспортировать свой персональный поиск в виде виджета на любую собственную веб- страницу. Доступны различные варианты такого экспорта. Предлагается несколько макетов страницы результатов, отличающихся расположением строки поиска и списка результатов. Есть также выбор различных вариантов цветового и шрифтового оформления такой страницы. Более того, поскольку там используются стандартные для веб-разработки технологии: CSS и JavaScript, можно вообще настроить все по своему вкусу с помощью простенького редактора, предлагаемого прямо на закладке панели управления «Внешний вид», или вручную. Поддерживается также быстрое добавление формы персонального поиска на страницу iGoogle.

Результаты поиска могут выводиться на вашем сайте одним из трех способов: на одной странице с полем поиска, на отдельной странице сайта (используется элемент iframe), а также в новом окне браузера на стандартной странице персонального поиска Google. Последний вариант наименее гибок и удобен, однако обеспечивает наилучшую совместимость. Дело в том, что, как показывает опыт практической работы с Персональным поиском Google, в первых двух вариантах возможны конфликты с некоторыми блокировщиками скриптов, применяемых в браузерах пользователей, а также некоторыми настройками фаерволлов опять же на стороне пользователя. Такие случаи редки, однако с ними рано или поздно можно столкнуться, если ваш поисковик становится достаточно популярным.

Персональный поиск Google прост в работе и способен стать полезнейшим инструментом в повседневной работе в Сети, даже если вы не планируете сделать его общедоступным. Кроме того, эта система необычайно демократична: для создания успешного поисковика достаточно быть экспертом в определенной области. Компетенции программиста здесь хоть и желательны для прямой работы с XML, но вовсе не обязательны. Надеемся, что наш краткий обзор поможет вам в работе.


Маски в Пользовательском поиске Google
Маска URLРезультат работы
*.domen.by/*Включаются/исключаются все сайты домена domen.com
sait.domen.by/*Включаются/исключаются все страницы одного сайта
sait.domen.by/files/*Включается/исключается определенный раздел конкретного сайта
sait.domen.by/files/spisok.htmВключается/исключается одна веб-страница


Алексей Кутовенко, alteridem@tut.by


Компьютерная газета. Статья была опубликована в номере 08 за 2010 год в рубрике интернет

©1997-2024 Компьютерная газета