Система персонального интернет-поиска Flexum

Среди всего многообразия многочисленных систем интернет-поиска особое место занимают так называемые персональные поисковики. Такие системы дают возможность создания собственного поиска всем желающим. Главная идея персонального поиска заключается в том, что пользователю предлагают самостоятельно определить перечень веб-ресурсов, к которым будет обращаться новый поисковик. Такие технологии очень широко применяются для создания систем поиска для отдельных сайтов, полезны они и «частникам», поскольку позволяют построить поисковик по интересующим конкретного человека тематическим ресурсам.

Персональный поиск - замечательный инструмент, однако не стоит переоценивать его возможности. Как и у любых других средств, у него есть свои недостатки. Если сравнивать персональные поисковики со специализированными вертикальными поисковыми машинами, то нетрудно заметить, что последние обладают рядом преимуществ. Для них, как правило, разрабатывают специализированные алгоритмы индексации и сортировки ресурсов, а зачастую предлагают и специализированные удобные интерфейсы, что недоступно владельцам персональных поисковиков. В таких системах используются универсальные алгоритмы и типовые интерфейсы, что, безусловно, ограничивает их возможности.

В сфере персонального интернет-поиска на сегодняшний день не так много достойных конкурентоспособных предложений. Лидером, пожалуй, следует признать систему Google Custom Search Engine, о которой стоит поговорить отдельно. Героем же данной статьи выступит российский проект Flexum (www.flexum.ru). Заметим, что его возможности и даже принципы работы значительно отличаются от персонального поиска Google, что делает Flexum интересным объектом для экспериментов.

Как и любой другой персональный поисковик, Flexum предлагает набор инструментов для создания собственной индексной базы, что позволяет повысить качество тематического поиска за счет ручного отбора включаемых в нее ресурсов.

Главное отличие Flexum от конкурентов заключается в принятом подходе к формированию индексной базы. Дело в том, что у пользователя Flexum есть контроль над роботом-«пауком». Указанные сайты честно выкачиваются и индексируются, как говорится, с чистого листа, при этом владелец персонального поисковика имеет полный контроль над этим процессом. Такой подход имеет свои достоинства и недостатки. К достоинствам отнесем гибкость настройки индексации и отсутствие привязки к уже существующим базам какого-либо поисковика. Это очень удобно при работе с
«малозаметными» для крупных поисковых машин ресурсами. С другой стороны, создание своего поиска средствами Flexum занимает гораздо больше времени, поскольку обязательно потребуется составлять полный список индексируемых сайтов. Кроме того, системе потребуется определенное время на проведение индексации, так что мгновенного результата здесь ждать не стоит.

Поскольку наличие собственных индексов предусматривает расход дискового пространства на сервере, стоит упомянуть о наличии у Flexum соответствующих квот. Для бесплатного аккаунта начальный размер базы определен в 200 Мб. По мере расходования квоты ее можно увеличивать, отправляя соответствующие запросы из панели настроек поисковика. Максимальный объем бесплатной базы – 5 гигабайт. Даже если учесть, что квота тратится не просто на описания ресурсов, а на выкачиваемые для индексации веб-страницы, ее размер, в принципе, можно считать приемлемым для частных проектов и не самых крупных сайтов.

Кроме базовой бесплатной версии на сайте Flexum предлагаются коммерческие аккаунты с расширенными возможностями. Flexum также предлагает специальные условия для тематических порталов, желающих построить свой поиск на технологиях его персонального поиска.

Создание собственного поисковика на платформе Flexum начинается с регистрации на сайте проекта. Процедура стандартная, каких-либо необычных вопросов в ее ходе не задают, подтверждение регистрации и пароль на указанный при регистрации e-mail приходят довольно быстро. Свежеиспеченная система получает собственный адрес типа «имя.flexum.ru».

Дальнейшая настройка и наполнение поисковика ведется с помощью специальной панели инструментов, содержащей ряд тематических закладок. Начнем с основного инструмента – управления списком включаемых в поиск сайтов и менеджером выкачки их веб-страниц.

Доступно два режима работы редактора списка сайтов: «Простой» и «Эксперт». В «Простом» режиме достаточно указывать ссылки на полезные сайты в одной-единственной форме, состоящей из двух закладок. Закладка «Основные» предлагает указать такие сведения, как название сохраняемого сайта, которое впоследствии будет отображаться в заголовке результата поиска, URL сайта, его краткое описание, а также список присваиваемых тегов. Интересно, что Flexum, кроме собственно сайтов, предлагает добавлять в систему и сведения об их RSS-каналах. Закладка «Выкачка» позволяет управлять параметрами закачки страниц и расходом дисковой квоты. По умолчанию на сайт выделяется 100 Мб. Параметр «Глубина выкачки» определяет количество переходов робота-«паука» по найденным на скачиваемых страницах ссылкам. Гибкое управление закачкой обеспечивает поддержка масок. С их помощью можно включать в закачки только необходимые веб-страницы. Правила составления масок стандартные.

«Экспертный» режим редактирования предлагает расширенный набор инструментов. Его интерфейс разделен на два фрейма, в которых выводится список сайтов и отдельных веб-страниц, а также их базовые параметры: адрес, глубина выкачки, объем квоты, дату индексирования. Заметим, что набор этих отображаемых параметров можно настроить. Второй фрейм редактора содержит подробную информацию о выделенном сайте, а также инструменты добавления новых страниц. Как и в простом режиме, допускается применение масок адресов, что позволяет индексировать только определенные, нужные вам разделы сайтов.

В экспертном режиме возможна загрузка заранее подготовленного списка сайтов и веб-страниц. Поддерживается работа с XML- и CSV-файлами. Справка по формату таких файлов, равно как и их образцы, приведены на сайте проекта.

После включения сайта в список он ставится в очередь на индексирование. Выкачка и индексация включенных в базу ресурсов при работе под бесплатным аккаунтом может потребовать несколько дней, а то и неделю, что не очень удобно. Владельцы коммерческих аккаунтов имеют возможность самостоятельно определять частоту обновления индекса персонального поисковика.

Итак, поиск настроен, осталось разобраться с возможностями его предоставления другим пользователям. Доступны несколько вариантов. Первый – размещение поиска непосредственно на сайте Flexum. В данном случае нам предлагают несколько готовых вариантов его внешнего оформления, различающихся цветовой гаммой интерфейсов поиска и выдачи. Стандартный интерфейс поиска состоит из трех разделов и содержит список выдачи результатов поиска, блок тематических разделов поисковика, сформированный на основе присвоенных тегов, а также «социальный» раздел со ссылками на блог поисковика, анкету автора поиска и его контактные данные. За счет наличия блока тегов готовый проект может работать не только как поисковик, но и как своеобразный веб-каталог. Дело в том, что тематические разделы поисковика можно просто просматривать, не отправляя запрос в форме поиска. Стандартный веб-интерфейс выдачи поисковика на основе Flexum кроме обычной строки поиска также предлагает ряд «социальных» инструментов, позволяющих оценить и прокомментировать результаты работы владельца ресурса.

Форму поиска от Flexum можно разместить и на внешнем сайте. В соответствующем разделе панели управления «Экспорт» предлагается необходимый JavaScript-код, который и можно поставить в нужном месте своей веб-страницы или блога. Доступно зеркалирование проекта, другими словами, перенаправление запросов с внешнего веб-сайта на страницу поиска Flexum. Кроме того, предлагается платная опция экспорта данных из Flexum в формате XML.

Еще одна отличительная черта Flexum – наличие ряда социальных инструментов. Контроль над ними осуществляется в разделе «Кабинет» панели управления поисковика. Пользователям предлагают заполнить персональные анкеты, содержащие общие данные о них. Эта анкета впоследствии служит визиткой автора поиска для других пользователей ресурса. Главным средством общения пользователей Flexum между собой является «Коммуникатор», с помощью которого можно обмениваться личными сообщениями. Для поддержки своего поискового ресурса можно публиковать статьи и вести блог. Эти материалы попадают в радел новостей на главной странице Flexum и могут быть использованы для продвижения проекта.

К работе над поисковиком можно привлекать и других пользователей. Собрать такую команду можно отправкой приглашений, благо соответствующая ссылка «Пригласи друга» вынесена на главную страницу персонального поисковика. Кроме рассылки приглашений можно воспользоваться возможностью размещения на странице поисковика ссылки «Стать соавтором», которая позволит любому другому пользователю Flexum отправить вам заявку на участие в наполнении поисковика. Это весьма полезное решение, поскольку, как мы уже выяснили, объем работ по заполнению базы Flexum достаточно велик. Еще один способ пополнения базы – ссылка «Предложить сайт», также размещаемая на странице персонального поисковика. С ее помощью посетители вашего проекта смогут сообщить о тематических сайтах, отсутствующих в индексе.

Несмотря на свои недостатки – большой объем ручной работы и значительный временной лаг в индексации внесенных в поиск проектов – система Flexum способна стать мощной платформой для построения персонального тематического интернет-поиска. Предлагаемая Flexum «честная» выкачка и индексация дает автору полный и гибкий контроль над наполнением индексной базы. Такой вариант индексации особенно хорош для работы с нераскрученными проектами, которые зачастую недостаточно качественно индексируются крупными универсальными интернет-поисковиками.

В настоящее время в системе Flexum зарегистрировано более семи тысяч персональных поисковиков. Наиболее крупные содержат сведения о трех- четырех тысячах сайтов. Просмотреть общий список зарегистрированных поисковиков можно на странице flexum.ru/top/searches/.

Алексей Кутовенко, alteridem@tut.by


Компьютерная газета. Статья была опубликована в номере 06 за 2010 год в рубрике soft

©1997-2024 Компьютерная газета