Что хотят поисковые серверы
Что хотят поисковые серверы Успех сайта это прежде всего его посещаемость. Как правило, на 90% посещаемость обеспечивают поисковые серверы. Смысл этой статьи - описать некоторые приемы, позволяющие управлять ими и тем самым обеспечить повышенную посещаемость. Конечно, мы не ставим задачу описать работу поисковиков - это очень тонкая тема, для каждого сервера необходим индивидуальный подход. Однако общие принципы для всех одинаковы, и мы их затронем. В принципе, пользователь имеет всего два инструмента управления индексацией страницы - это мета-теги в документе и файл robots.txt. Описанием их мы займемся, но все по порядку.
Рабочий элемент поисковой машины, программа, которая занимается "обходом" сети, называется робот (или паук, сетевой агент, crawler, шпион). Изначальное условие для работы паука — набор URL-ов, сетевых адресов. Как программа находит URL? Наиболее распространенный метод и, на наш взгляд, наиболее устаревший — запись адреса в систему поискового сервера администратором добавляемого ресурса. Это хорошо в том плане, что ваш сайт будет виден только в том свете, как вы хотите, причем без лишних хлопот. Однако, и шанс того, что пользователь найдет ваш ресурс случайно, снизится.
Второй способ — робот сам ищет новые документы по ссылкам. То есть, если у вас на вашей индексированной странице 1.htm есть ссылка на следующую страницу 2.htm, то машина отиндексирует и ее (индексировать — анализировать и сортировать информацию). И так до определенного уровня (хотя в некоторых поисковиках глубина не ограничена). Разумеется, это делает поисковик значительно более эффективным, но доставляет некоторые неудобства владельцам ресурсов, которые не хотят, чтобы какая-то страница была показана. Выход из ситуации — использование возможностей robots.txt (об этом звере подробно чуть ниже).
Robots.txt
Это обычный текстовой файл, содержащий некоторые команды на тему, что стоит, а что не стоит делать сетевому агенту. В принципе, он является основой для работы с действительно крутыми поисковыми серверами (AltaVista, HotBot, Lycos...). Любая умная машина первоначально обращается к этому файлу. И хорошо, если он есть. Тогда робот выполнит все, что вы ему указали. Но, по статистике, только пять процентов ресурсов снабжены robots.txt. Если его нет, пауки поступают одним из следующих вариантов — уходят вообще, отказавшись от индексации, индексируют только первый документ, индексируют все. Сразу стоит сказать, что, как правило, они идут по первому пути. Из этого можно сделать вывод, что, размещая сайт без robots.txt, мы сразу подписываемся в том, что этот ресурс значительной популярности у иностранных граждан иметь не будет — большинство его просто не найдут. С русскими серверами сложнее — они, возможно, и увидят. Причина тому — несравненно меньшее количество ресурсов, которые требуется индексировать.
Впрочем, когда поисковая машина видит и индексирует абсолютно все на вашем сайте, тоже не лучший вариант. Очень часто есть такая информация, которую пользователь или не должен увидеть вообще, или увидеть не сразу. А поисковик даст ссылку прямо на эту страницу, чем может принести вам значительный ущерб.
Дабы исключить все эти неприятности, будем правильно составлять и использовать robots.txt. Лежать он должен в вашей нуль-директории (там же, где и стартовая страница). Как ни странно, большинство пользователей оставляют этот файл вообще пустым. Мы сомневаемся, что это будет иметь хоть какой-то, даже малозначимый, эффект. Файл необходимо заполнить, к тому же это очень просто. Основа — минимальная запись должна состоять из двух строк. В них должно быть описано, что именно ЗАПРЕЩЕНО (disallow) индексировать каким паукам (user-agent). Приведем пример, который применяет подавляющее большинство владельцев сайтов.
User-Agent: *
Disallow:
Это значит, что всем (*) роботам (User-Agent) ничего не запрещено (Disallow) индексировать (то есть, все будет доступно).
Но, конечно же, этих знаний недостаточно. Robots.txt дает куда более широкие возможности. Для начала покажем стандарт записи, принятый в мире (Standard for robot Exclusion).
Записи (records) файла /robots.txt
[ # comment string NL ]*
User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL
[ # comment string NL ]*
Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL
[
# comment string NL
|
Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL
]*
[ NL ]+
Описание параметров, применяемых в записях robots.txt
[...]+ Квадратные скобки со следующим за ними знаком + означают, что тут параметрами являются несколько служебных слов.
Например, после "User-Agent:" через пробел довольно часто указываются несколько пауков.
[...]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть как несколько ключевых слов, так и их отсутствие в принципе.
Например, Вы можете писать или не писать комментарии.
[...]? Квадратные скобки со следующим за ними знаком? означают, что в качестве параметров могут быть указаны ноль или одно служебное слово.
..|.. означает выбор из двух вариантов, стоящих по разные стороны.
WS — пробел или табуляция
NL символы конец строки, возврат каретки или Enter
User-Agent: ключевое слово
Параметрами являются agent_id поисковых роботов.
Disallow: ключевое слово
Параметрами являются полные пути к неиндексируемым файлам или директориям
# начало строки комментариев, comment string — собственно тело комментария.
agent_id любое количество символов, не включающих WS и NL, которые определяют agent_id различных поисковых роботов. Знак * определяет всех роботов сразу.
path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексированию.
Наиболее опытным людям этого достаточно для написания файла, мы же рассмотрим поподробней и с примерами.
Предположим, что есть необходимость разрешить всем поисковикам индексировать все, а Rex запретить доступ к папкам tmp, cgi-bin. Тогда нам необходимо написать следующее:
User-agent: *
Disallow:
User-agent: Rex
Disallow: /cgi-bin/tmp/
Но возникает одна глобальная проблема — папок или файлов, которые не стоит индексировать, может быть очень много. И тогда, во-первых, вы замучаетесь их прописывать, а во-вторых, robots.txt может стать слишком большим, что недопустимо. В этом случае применяется маскирование. Для этого достаточно поставить в начале их названия один и тот же символ. Например, если мы не хотим показать папки work, secret, top, то можно переписать их как $robots, $secret, $top и записать в файле следующее:
User-Agent: *
Disallow: /$
То есть, всем роботам запрещено индексировать папки, начинающиеся с $.
Но изучение базовых свойств мы оставим, так как более изучать нечего. Писать же навернутые примеры этого файла не стоит — вы и сами сможете это сделать, если понадобится.
Перейдем к следующей части статьи — применение мета-тегов.
Мета-тэги очень дополняют robots.txt в нелегком деле управления поисковыми серверами. Они, пожалуй, даже более применимы, чем этот файл, так как пока далеко не все серверы работают с robots.txt, мета-тэги же использует подавляющее большинство серверов. Они прописываются непосредственно в теле документа, в его "голове" (между тегами <head> и </head>). Мы рассмотрим только некоторые из них, наиболее важные на наш взгляд.
Первый тег позволяет непосредственно управлять поведением паука на этой странице, однако нет возможности совсем запретить доступ к ней.
<META NAME="ROBOTS" CONTENT="commands">
Мы сразу замечаем, что тэг состоит из двух частей — его имени и параметров. В данном случае commands это ключевые слова, отделенные друг от друга запятыми. Приведем ключевые слова:
NONE — игнорирование всеми роботами этой страницы при индексации
ALL — можно индексировать как страницу, так и все ссылки с нее
INDEX — разрешение на индексацию страницы
NOINDEX — запрещение индексации этой страницы
FOLLOW — разрешение на индексацию всех ссылок на странице
NOFOLLOW — запрещение индексации ссылок
В случае отсутствия этого тега робот индексирует все. В случае применения взаимоисключающих параметров (к примеру, none и all) робот поступает по своему усмотрению, чаще всего индексирует.
Несмотря на то, что это во многом повторяет robots.txt, лучше применять и то, и это, так как, повторимся, не все поисковики работают с файлом.
Следующий тег один из самых полезных и распространенных. Он включает в себя те слова, в ответ на запрос которых сервер выдаст этот документ. Записывается он так:
<META NAME="KEYWORDS" CONTENT="words">,
где words — непосредственно ключевые слова через запятую. Не стоит употреблять слишком много слов — если количество знаков превышает 700, многие поисковые машины игнорируют этот документ. Также не стоит, как делают многие, особенно создатели любительских порно-сайтов, прописывать одно слово много раз, дабы увеличить соответствие запросу. Все нормальные поисковые серверы не индексируют страницы, в keywords которых одно слово применяется чаще, чем три раза. Такая вот международная борьба со спамом.
Еще одна ошибка — не прописывайте в ключевых словах своего сайта, посвященного разведению хомячков, слова, наиболее популярные в поисковых системах (porno, sex, mp3, free, playboy...) в надежде на посещаемость. Причина? Ваша страничка все равно не поднимется в поисковиках до видимой границы соответствия, так как сайтов, где прописано то же самое, существует несколько сотен тысяч. А ресурсов про разведение хомячков очень мало. Так что добиться популярности можно двумя путями — сделать его на очень популярную или очень редкую тему.
Следующий тег описывает, какое именно описание сайта выдаст поисковый сервер пользователю в ответ на совпадение ключевых слов:
<META NAME="DESCRIPTION" CONTENT="text">
Тут стоит кратко и привлекательно описать свой ресурс, если он направлен на русскоязычную и нерусскоязычную публику одновременно, то лучше сделать это на двух языках. Однако учтите то, что большинство серверов не воспринимает описание длиннее, чем 250 символов.
Сразу стоит определить, ваш сайт будет изменяться или нет. Если вы ничего не собираетесь менять, то постоянное обращение роботов только ухудшит его работу. Дабы страничка проиндексировалась только один раз, необходимо записать:
<META NAME="DOCUMENT-STATE" CONTENT="STATIC">
и для изменяющихся страниц:
<META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">
Однако, даже идеальное выполнение вышеописанных операций не гарантирует повышение посещаемости вашей страницы. Многие серверы в качестве основного условия соответствия ставят количество повторений запрашиваемого слова в странице, особенно в <title>(AltaVista). Другие вообще игнорируют мета-теги (Rambler.ru). Поэтому подстраиваться необходимо под каждый поисковик в отдельности, ибо универсального рецепта не существует.
Как добавить сайт в поисковые машины, чтобы они могли провести первую индексацию? Самый надежный способ — зайти на каждый сервер и самостоятельно занести. Но это долго и очень быстро надоедает. Есть другой способ — существует уйма серверов, которые за вас заносят ресурс в поисковые системы. Делятся они на работающие автоматическим или полуавтоматическим способом. На наш взгляд, вторые значительно предпочтительнее — работа выполняется дифференцировано и поэтому качественнее. Из иноземных стоит назвать http://www.addme.com — наиболее приемлемый вариант. Из русских стоит отметить творение студии рулевого русского интернета — Лебедева — систему автоматической регистрации TAU, которую вы можете найти по адресу http://www.design.ru/free/addurl .
Что касается программ, заносящих ваш URL сразу в несколько сотен, а то и тысяч поисковых серверов, то, на наш взгляд, делают они это неудовлетворительно, в основном из-за невозможности учесть все вариации настроек каждого сервера в отдельности.
Юрий Гурский
Галина Корабельникова (c) компьютерная газета
Рабочий элемент поисковой машины, программа, которая занимается "обходом" сети, называется робот (или паук, сетевой агент, crawler, шпион). Изначальное условие для работы паука — набор URL-ов, сетевых адресов. Как программа находит URL? Наиболее распространенный метод и, на наш взгляд, наиболее устаревший — запись адреса в систему поискового сервера администратором добавляемого ресурса. Это хорошо в том плане, что ваш сайт будет виден только в том свете, как вы хотите, причем без лишних хлопот. Однако, и шанс того, что пользователь найдет ваш ресурс случайно, снизится.
Второй способ — робот сам ищет новые документы по ссылкам. То есть, если у вас на вашей индексированной странице 1.htm есть ссылка на следующую страницу 2.htm, то машина отиндексирует и ее (индексировать — анализировать и сортировать информацию). И так до определенного уровня (хотя в некоторых поисковиках глубина не ограничена). Разумеется, это делает поисковик значительно более эффективным, но доставляет некоторые неудобства владельцам ресурсов, которые не хотят, чтобы какая-то страница была показана. Выход из ситуации — использование возможностей robots.txt (об этом звере подробно чуть ниже).
Robots.txt
Это обычный текстовой файл, содержащий некоторые команды на тему, что стоит, а что не стоит делать сетевому агенту. В принципе, он является основой для работы с действительно крутыми поисковыми серверами (AltaVista, HotBot, Lycos...). Любая умная машина первоначально обращается к этому файлу. И хорошо, если он есть. Тогда робот выполнит все, что вы ему указали. Но, по статистике, только пять процентов ресурсов снабжены robots.txt. Если его нет, пауки поступают одним из следующих вариантов — уходят вообще, отказавшись от индексации, индексируют только первый документ, индексируют все. Сразу стоит сказать, что, как правило, они идут по первому пути. Из этого можно сделать вывод, что, размещая сайт без robots.txt, мы сразу подписываемся в том, что этот ресурс значительной популярности у иностранных граждан иметь не будет — большинство его просто не найдут. С русскими серверами сложнее — они, возможно, и увидят. Причина тому — несравненно меньшее количество ресурсов, которые требуется индексировать.
Впрочем, когда поисковая машина видит и индексирует абсолютно все на вашем сайте, тоже не лучший вариант. Очень часто есть такая информация, которую пользователь или не должен увидеть вообще, или увидеть не сразу. А поисковик даст ссылку прямо на эту страницу, чем может принести вам значительный ущерб.
Дабы исключить все эти неприятности, будем правильно составлять и использовать robots.txt. Лежать он должен в вашей нуль-директории (там же, где и стартовая страница). Как ни странно, большинство пользователей оставляют этот файл вообще пустым. Мы сомневаемся, что это будет иметь хоть какой-то, даже малозначимый, эффект. Файл необходимо заполнить, к тому же это очень просто. Основа — минимальная запись должна состоять из двух строк. В них должно быть описано, что именно ЗАПРЕЩЕНО (disallow) индексировать каким паукам (user-agent). Приведем пример, который применяет подавляющее большинство владельцев сайтов.
User-Agent: *
Disallow:
Это значит, что всем (*) роботам (User-Agent) ничего не запрещено (Disallow) индексировать (то есть, все будет доступно).
Но, конечно же, этих знаний недостаточно. Robots.txt дает куда более широкие возможности. Для начала покажем стандарт записи, принятый в мире (Standard for robot Exclusion).
Записи (records) файла /robots.txt
[ # comment string NL ]*
User-Agent: [ [ WS ]+ agent_id ]+ [ [ WS ]* # comment string ]? NL
[ # comment string NL ]*
Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL
[
# comment string NL
|
Disallow: [ [ WS ]+ path_root ]* [ [ WS ]* # comment string ]? NL
]*
[ NL ]+
Описание параметров, применяемых в записях robots.txt
[...]+ Квадратные скобки со следующим за ними знаком + означают, что тут параметрами являются несколько служебных слов.
Например, после "User-Agent:" через пробел довольно часто указываются несколько пауков.
[...]* Квадратные скобки со следующим за ними знаком * означают, что в качестве параметров могут быть как несколько ключевых слов, так и их отсутствие в принципе.
Например, Вы можете писать или не писать комментарии.
[...]? Квадратные скобки со следующим за ними знаком? означают, что в качестве параметров могут быть указаны ноль или одно служебное слово.
..|.. означает выбор из двух вариантов, стоящих по разные стороны.
WS — пробел или табуляция
NL символы конец строки, возврат каретки или Enter
User-Agent: ключевое слово
Параметрами являются agent_id поисковых роботов.
Disallow: ключевое слово
Параметрами являются полные пути к неиндексируемым файлам или директориям
# начало строки комментариев, comment string — собственно тело комментария.
agent_id любое количество символов, не включающих WS и NL, которые определяют agent_id различных поисковых роботов. Знак * определяет всех роботов сразу.
path_root любое количество символов, не включающих WS и NL, которые определяют файлы и директории, не подлежащие индексированию.
Наиболее опытным людям этого достаточно для написания файла, мы же рассмотрим поподробней и с примерами.
Предположим, что есть необходимость разрешить всем поисковикам индексировать все, а Rex запретить доступ к папкам tmp, cgi-bin. Тогда нам необходимо написать следующее:
User-agent: *
Disallow:
User-agent: Rex
Disallow: /cgi-bin/tmp/
Но возникает одна глобальная проблема — папок или файлов, которые не стоит индексировать, может быть очень много. И тогда, во-первых, вы замучаетесь их прописывать, а во-вторых, robots.txt может стать слишком большим, что недопустимо. В этом случае применяется маскирование. Для этого достаточно поставить в начале их названия один и тот же символ. Например, если мы не хотим показать папки work, secret, top, то можно переписать их как $robots, $secret, $top и записать в файле следующее:
User-Agent: *
Disallow: /$
То есть, всем роботам запрещено индексировать папки, начинающиеся с $.
Но изучение базовых свойств мы оставим, так как более изучать нечего. Писать же навернутые примеры этого файла не стоит — вы и сами сможете это сделать, если понадобится.
Перейдем к следующей части статьи — применение мета-тегов.
Мета-тэги очень дополняют robots.txt в нелегком деле управления поисковыми серверами. Они, пожалуй, даже более применимы, чем этот файл, так как пока далеко не все серверы работают с robots.txt, мета-тэги же использует подавляющее большинство серверов. Они прописываются непосредственно в теле документа, в его "голове" (между тегами <head> и </head>). Мы рассмотрим только некоторые из них, наиболее важные на наш взгляд.
Первый тег позволяет непосредственно управлять поведением паука на этой странице, однако нет возможности совсем запретить доступ к ней.
<META NAME="ROBOTS" CONTENT="commands">
Мы сразу замечаем, что тэг состоит из двух частей — его имени и параметров. В данном случае commands это ключевые слова, отделенные друг от друга запятыми. Приведем ключевые слова:
NONE — игнорирование всеми роботами этой страницы при индексации
ALL — можно индексировать как страницу, так и все ссылки с нее
INDEX — разрешение на индексацию страницы
NOINDEX — запрещение индексации этой страницы
FOLLOW — разрешение на индексацию всех ссылок на странице
NOFOLLOW — запрещение индексации ссылок
В случае отсутствия этого тега робот индексирует все. В случае применения взаимоисключающих параметров (к примеру, none и all) робот поступает по своему усмотрению, чаще всего индексирует.
Несмотря на то, что это во многом повторяет robots.txt, лучше применять и то, и это, так как, повторимся, не все поисковики работают с файлом.
Следующий тег один из самых полезных и распространенных. Он включает в себя те слова, в ответ на запрос которых сервер выдаст этот документ. Записывается он так:
<META NAME="KEYWORDS" CONTENT="words">,
где words — непосредственно ключевые слова через запятую. Не стоит употреблять слишком много слов — если количество знаков превышает 700, многие поисковые машины игнорируют этот документ. Также не стоит, как делают многие, особенно создатели любительских порно-сайтов, прописывать одно слово много раз, дабы увеличить соответствие запросу. Все нормальные поисковые серверы не индексируют страницы, в keywords которых одно слово применяется чаще, чем три раза. Такая вот международная борьба со спамом.
Еще одна ошибка — не прописывайте в ключевых словах своего сайта, посвященного разведению хомячков, слова, наиболее популярные в поисковых системах (porno, sex, mp3, free, playboy...) в надежде на посещаемость. Причина? Ваша страничка все равно не поднимется в поисковиках до видимой границы соответствия, так как сайтов, где прописано то же самое, существует несколько сотен тысяч. А ресурсов про разведение хомячков очень мало. Так что добиться популярности можно двумя путями — сделать его на очень популярную или очень редкую тему.
Следующий тег описывает, какое именно описание сайта выдаст поисковый сервер пользователю в ответ на совпадение ключевых слов:
<META NAME="DESCRIPTION" CONTENT="text">
Тут стоит кратко и привлекательно описать свой ресурс, если он направлен на русскоязычную и нерусскоязычную публику одновременно, то лучше сделать это на двух языках. Однако учтите то, что большинство серверов не воспринимает описание длиннее, чем 250 символов.
Сразу стоит определить, ваш сайт будет изменяться или нет. Если вы ничего не собираетесь менять, то постоянное обращение роботов только ухудшит его работу. Дабы страничка проиндексировалась только один раз, необходимо записать:
<META NAME="DOCUMENT-STATE" CONTENT="STATIC">
и для изменяющихся страниц:
<META NAME="DOCUMENT-STATE" CONTENT="DYNAMIC">
Однако, даже идеальное выполнение вышеописанных операций не гарантирует повышение посещаемости вашей страницы. Многие серверы в качестве основного условия соответствия ставят количество повторений запрашиваемого слова в странице, особенно в <title>(AltaVista). Другие вообще игнорируют мета-теги (Rambler.ru). Поэтому подстраиваться необходимо под каждый поисковик в отдельности, ибо универсального рецепта не существует.
Как добавить сайт в поисковые машины, чтобы они могли провести первую индексацию? Самый надежный способ — зайти на каждый сервер и самостоятельно занести. Но это долго и очень быстро надоедает. Есть другой способ — существует уйма серверов, которые за вас заносят ресурс в поисковые системы. Делятся они на работающие автоматическим или полуавтоматическим способом. На наш взгляд, вторые значительно предпочтительнее — работа выполняется дифференцировано и поэтому качественнее. Из иноземных стоит назвать http://www.addme.com — наиболее приемлемый вариант. Из русских стоит отметить творение студии рулевого русского интернета — Лебедева — систему автоматической регистрации TAU, которую вы можете найти по адресу http://www.design.ru/free/addurl .
Что касается программ, заносящих ваш URL сразу в несколько сотен, а то и тысяч поисковых серверов, то, на наш взгляд, делают они это неудовлетворительно, в основном из-за невозможности учесть все вариации настроек каждого сервера в отдельности.
Юрий Гурский
Галина Корабельникова (c) компьютерная газета
Компьютерная газета. Статья была опубликована в номере 43 за 2000 год в рубрике интернет :: разное