поисковый проект ищет нишу в пространстве open-source

Новый проект веб-поиска надеется заткнуть за пояс Google, Yahoo и MSN — и облегчить процесс добычи в Сети полезной, некоммерческой информации.
Проект Nutch ставит своей целью разработку ПО для поиска документов в онлайне. Но в отличие от крупных поисковых машин, формулы, применяемые для извлечения релевантных результатов по запросам пользователей, не будут держаться в секрете. Напротив, окно в вычисления всегда будет открыто, и в нем будут ссылки на пояснения к способу определения каждого результата.
«Все существующие поисковые машины используют тайные методы принятия решений о том, какие документы считать лучшими, — говорит главный архитектор проекта Дуг Каттинг, который участвовал в исследовательских проектах Excite, Grand Central и Palo Alto Research Center. — Поиск — это главная потребность пользователей Интернета, важнейший инструмент. И то, что его устройство держат в секрете, неправильно. Чтобы доверять поисковой машине, люди должны иметь возможность узнать, как она работает».
Сам проект Nutch держался в секрете примерно год, пока его инициаторы не заручились поддержкой разработчиков и не получили финансирование от одного из крупнейших игроков на поле коммерческого поиска — Overture Services.
В прошлом году два сотрудника Overture (существующей за счет рекламы поисковой службы, которую приобретает Yahoo) предложили Каттингу средства для создания в научных целях поисковой системы с открытым исходным кодом. Тот, уже корпя над другой поисковой машиной, заинтересовался и привел с собой трех других разработчиков. Образовался совет директоров, куда вошли Митч Капор, основатель Lotus и соучредитель Electronic Freedom Foundation, и Тим О’Рейли, основатель и президент издательства учебной литературы O'Reilly & Associates.
Несмотря на свою связь с Overture, проект не является коммерческим и нацелен на совершенствование поиска путем экспериментирования. Ученые или разработчики смогут загружать ПО и адаптировать его для своих нужд без необходимости изобретать колесо, пояснил Каттинг. Правительства других стран, вместо того чтобы лицензировать проприетарную технологию, поддерживаемую рекламой, смогут использовать Nutch для создания некоммерческих поисковых сайтов для своих граждан. А компании получат возможность строить на базе этой технологии свой бизнес.
Дэнни Салливан, редактор специального издания Search Engine Watch, считает, что проект будет полезен людям, желающим создать систему для поиска информации определенной категории или относящейся к определенному месту, например информации на тему игры в гольф. Но для широкого применения механизм с открытым исходным кодом, скорее всего, станет раздольем для спамеров — это, по мнению Салливана, главная причина, по которой такие поисковые машины, как Google, предпочитают секретность.
«Поисковая машина open-source — хорошая идея, очень напоминающая идею каталога open-source (типа Open Directory Project, который используют America Online и Google). Но если открыть всю информацию (о том, как машина работает), она перестанет быть полезной — просто потому, что ее завалят спамом. Это все равно, что открыть раздел новостей и сказать: «Сюда может писать любой — никаких фильтров». И все же проект может оказать некоторое давление на коммерческие поисковые машины, заставляя их повышать свой уровень, добавил Салливан.

поиск очередной сенсации

В прошлом году, когда участники рынка активно вкладывали деньги в рекламные кампании, привязывающие их продукты к определенным ключевым словам, поиск стал кузницей инноваций. Overture и Google построили на поиске, поддерживаемом рекламой, миллиардные бизнесы, в результате чего все крупные порталы возвратились к вопросам веб-навигации. Ведущие специалисты по вычислительной технике порталов и научных организаций ищут способы совершенствования механизмов поиска для интернета и различных приложений.
В том же прошлом году отрасль претерпела широкую консолидацию, и теперь большую часть мирового поискового трафика обслуживают всего несколько компаний: Google, Yahoo и MSN. Когда игроков становится все меньше и меньше, остается мало места для сдержек и противовесов. В то же время появились такие сайты, как Google Watch компании Public Information Research, которые пытаются добиться прозрачности поисковых машин или привлечь внимание к растущей важности веб-поиска.
Google не ответила прямо на критику по поводу того, что формулы ее поисковой машины держатся в секрете. Но представитель компании назвал Nutch «еще одним проектом, демонстрирующим важность технологии поисковых машин и всеобщий интерес к ней».
Nutch уже представил загружаемое ПО для исследований, которое могут тестировать другие разработчики, но среднему веб-серферу оно, вероятно, покажется слишком сложным. В октябре должен открыться общедоступный сайт, позволяющий искать среди 100 млн документов. Его можно будет сопоставить с такими индексами, как Google. Например, можно будет взять результаты поиска Nutch с его прозрачными математическими вычислениями и сравнить их с результатами Google, чьи формулы держатся в секрете. Nutch активно ищет средства на оборудование, поддерживающее внешний трафик, но пока емкости системы недостаточно, чтобы обслуживать посетителей.
Overture не называет объем финансирования, предоставленного Nutch. По словам представительницы компании Дженнифер Стивенс, проект был вызван желанием «лучше понять существующие проблемы поиска и найти новые решения в этой области». Вскоре после того, как в прошлом году Overture создала собственную исследовательскую группу, которую возглавил Гари Флейк, компания инвестировала средства в механизм поиска с открытым исходным кодом для научных исследований и повышения образовательного уровня собственных сотрудников. Но когда Overture приобрела AltaVista и технологию веб-поиска у норвежской компании Fast Search & Transfer, она использовала для поисковой машины и программы тестирования эти технологии. Nutch служит компании альтернативным опытным полем, пояснила Стивенс.
Слово Nutch, как и названия других популярных веб-проектов, не несет смысловой нагрузки и в данном случае исходит от двухлетнего сына Каттинга Генри. В прошлом году, когда Каттинг подбирал название для домена, он услышал, что его сын произносит nutch, вместо lunch.
Машина написана на Java и опирается на Lucene, библиотеку программного обеспечения, которую можно использовать для введения функций поиска в такие технологии, как e-mail. Библиотека Lucene тоже создавалась при участии Каттинга и используется им в качестве инструмента внутреннего поиска и индексации.
Каттинг считает, что, когда поисковые машины оказываются перегруженными ссылками на коммерческие продукты и услуги, этот груз может помешать поиску некоммерческих данных. Его беспокоит также то, что за рубежом доминирующими становятся американские поисковые компании.
«Будет хорошо, если мир получит механизм поиска с открытым исходным кодом».

Стефани Олсен, CNET News.



Сетевые решения. Статья была опубликована в номере 09 за 2003 год в рубрике software

©1999-2024 Сетевые решения