Как стать найденным. Мысли о релевантности

Как стать найденным. Мысли о релевантности Е PLURIBUS UNUM
Из многих единое (лат.)

После появления статьи "Что хотят поисковые серверы" мне пришлось ответить на множество писем с вопросами (спасибо за внимание). Но на все я так и не смог дать ответа, потому что в двух словах этого никак не раскроешь, даже частично. Но было обещано написать большую статью на эту тематику, что, собственно, и сделано. Поэтому ответы всем страждущим есть здесь.

Кратко можно охарактеризовать тему этой статьи, как "что мне делать, а что не делать, чтобы мой сайт хоть кто-то посещал". Я постараюсь раскрыть эту тему как можно шире, делая упор на поисковых серверах, как источнике подавляющего числа посещений. Правда, не гарантирую на сто процентов, что если вы все выполните идеально, это принесет успех вашему ресурсу. Есть гораздо более важный фактор, который я выражу старым анекдотом — "Из Москвы в Питер и из Питера в Москву, в направлении друг друга, по одной дороге, вышли два поезда. И не встретились. Почему? (мхатовская пауза) Не судьба". Именно так, если не судьба, то никакая работа не поможет :). Очень многое зависит от того, повезет вам или нет.
С самого начала развития Интернет, как мировой сети, появилась необходимость поиска информации. И чем больше ее становилось, тем труднее было найти то, что необходимо. Сразу наметилось два основных пути — внутренний поиск в собственном каталоге (Yahoo) и глобальный поиск в сети, непосредственно от крупных серверов к остальным (Altavista, Lycos). Второй путь является куда более прогрессивным и полезным, что касаемо пользователей. Первоначально серверы сами искали то, что необходимо индексировать, но с развитием мировой паутины появилась система ручного добавления создателями сайтов своих творений в базу поисковика. Именно с глобальным развитием Интернет возникла необходимость как-то заставить поисковик выбрать именно ваш ресурс из многих тысяч других и показать в начале списка подобных. Особенно актуально это стало в эпоху тотальной коммерциализации сети (после 1996). Для того чтобы заставить машину что-то выполнить, необходимо понимать, по какому принципу она ставит какие-то ресурсы в начало списка, а какие — в конце (обратите внимание на то, что мы рассматриваем именно поисковые серверы, а не каталоги ссылок или рейтинги, в которых совсем другая песня).
Основным параметром при отборе страниц по запросу пользователя является релевантность (от английского "соответствие"). Посмотрим, что об этом написано в помощи моей любимой русской поисковой машины — Yandex.
"Яndex ранжирует документы по вычисляемому параметру "релевантность". Релевантность документа зависит не только от числа слов запроса, найденных в документе, но и от частотных характеристик искомых слов, веса слова или выражения, близости искомых слов в тексте документа друг к другу и т.д.
Поэтому основной совет — пишите подробно и литературно! Литературно — имеется в виду, пользуясь богатством русского языка, синонимами, аналогиями, поскольку Вы не знаете, с какой стороны подойдет пользователь к Вашей теме.
Еще один совет — тоже вполне литературный — давайте осмысленные заголовки и вообще давайте заголовки своим документам. Заголовки типа "type_Document_Title_here", или "Web Page Title Here", или "Insert Page Title Here", или "Put_Your_Title_Here", или "Заголовок" не украшают ни страницу, ни ее Web-мастера. Помимо этого, многие поисковые системы, в том числе и Яndex, обращают особое внимание на слова, содержащиеся в заголовке.
Важный политический совет — не занимайтесь спамом! Это значит, что не стоит брать первые 10 самых поисковых слов из какого-нибудь Top100 и вписывать их в заголовки, комментарии и просто в текст белым по белому. Во-первых, это не добавляет славы создателю и вызвает естественное раздражение пользователей. Во-вторых, поисковые системы, и Яndex тоже, начинают с этим бороться. Кроме этого, спам увеличивает размер документа и, следовательно, уменьшает контрастность слов в нем.
Дополнительные советы — конфигурируйте свои серверы так, чтобы они выдавали кодировку присланного документа (тогда пользователю не придется руками переключать язык в браузере) и дату создания файла. И еще — если вы хотите поддерживать несколько кодировок русского языка, делайте это цивилизованным путем, то есть не создавайте параллельные наборы документов в разных кодировках.
И, наконец, нам часто задают вопрос: как сделать так, чтобы мой документ оказывался наверху списка найденного? Отвечаем прямо и честно: этот вопрос в общем виде не имеет смысла. Документ бывает более или менее релевантен относительно запроса. Если Вы можете выделить группу запросов (слов и словосочетаний), по которым Ваша информация должна находиться, то используйте эти слова в документах, согласно нашему основному совету. Дополнительная рекомендация — пишите оригинально! Если естественно-языковый запрос состоит из нескольких слов (а средняя длина запросов в Яndex'е больше двух), при ранжировании учитывается редкость сочетаний".
Очень хорошо написано. Грамотно и относится к большинству умных поисковых машин. В основном дальше по статье мы будем опираться на этот текст. Однако, информации относительно того, что такое релевантность конкретно и как ее повысить, нет вообще. Это мы и попробуем сейчас рассмотреть подробно.
Релевантность определяется разными серверами по-разному, но ядро (суть) у всех общее. Если взять за максимум релевантности (соответствия) 10 баллов, то в среднем у большинства поисковых машин важность факторов расположится следующим образом:
1) Заголовок (<title> ). Минимум 5 баллов. В большинстве серверов самый важный фактор. Особенно, если написано с заглавной буквы (почему так, я понять не могу). Но и тут есть очень важный нюанс — если заголовок у вас "Самые лучшие девушки", а текст на странице исключительно про то, чем и как кормить хомячков, то я даю голову на отсечение — ваш ресурс будет в самом конце списка на запрос "Самые лучшие девушки". Почему так, опишу немного ниже.
2) Мета-теги. Можно оценить балла в три. Я о них подробно писал в статье "Что хотят поисковые серверы", но так как далеко не все читают газету регулярно, то воспользуемся небольшим переработанным куском той статьи:
Мета-теги это точно такие же теги (командные слова) языка HTML, как и все остальные. Только назначение у них другое: обычные применяются для верстки страницы, эти же — для указания различной информации поисковым машинам. Они прописываются непосредственно в теле документа, в его "голове" (между тегами <head> и </head> ). Мы рассмотрим только некоторые из них, которые имеют непосредственное отношение к теме.
<META NAME="KEYWORDS" CONTENT="words">,
где words — непосредственно ключевые слова через запятую. Не стоит употреблять слишком много слов — если количество знаков превышает 700, многие поисковые машины игнорируют этот документ. Также не стоит, как делают многие, особенно создатели любительских порно-сайтов, прописывать одно слово много раз, дабы увеличить соответствие запросу. Все нормальные поисковые серверы не индексируют страницы, в keywords которых одно слово применяется чаще, чем три раза. Такая вот международная борьба со спамом.
Следующий тег описывает, какое именно описание сайта выдаст поисковый сервер пользователю в ответ на совпадение ключевых слов:

<META NAME="DESCRIPTION" CONTENT="text">

Тут стоит кратко и привлекательно описать свой ресурс. Если он направлен на русскоязычную и не русскоязычную публику одновременно, то лучше сделать это на двух языках. Однако учтите, что большинство серверов не воспринимает описание длиннее 250 символов.
Разумеется, хорошо, если то, что прописано в заголовке, совпало с написанным в тегах. Но это тоже еще не гарантирует высокую релевантность вашего документа. Переходим к тому, без чего ваш ресурс никак не будет популярным.

Текст страницы — сам по себе в баллах где-то два. Но роль его значительно более важна. Серверы, как правило, устанавливают релевантность запросу в комплексе, то есть, проверяется адекватность содержания страницы тому, что прописано в заголовке и тегах. То есть, если запрос "разведение хомячков", у вас в заголовке написано "Разведение хомячков — все что необходимо юному фермеру", в тегах — <META NAME="DESCRIPTION" CONTENT="Лучший в сети ресурс по хомячкам. Советы опытных хомяководов">, <META NAME="KEYWORDS" CONTENT="хомяк, хомячки, разведение хомяков">, да еще в тексте много раз встречается что-то подобное, гарантирую, что ваш сайт в десятку по этому запросу точно попадет (уж простите за избыток тавтологии в последнем абзаце — очень хочется как можно более доходчиво написать). Однако, если одно слово встречается более 20 раз на странице, многие поисковики не индексируют такой документ. С одной стороны, это оправдано, с другой — полный маразм, так как достаточно часто употребление одного слова много раз есть необходимость, а вовсе не спам. Некоторые поисковые серверы повышенное внимание обращают на текст в ссылках и подписям к картинкам. Это еще одна веская причина заполнять по возможности параметр Alt (это тот текст, который появится при наведении мышки на вашу картинку).
Размер документа — последнее время поисковые серверы стали уделять повышенное внимание объему информации на странице и сервера в целом. То есть, если мой сайт, посвященный чему-либо, в десять раз больше вашего (по количеству документов и размеру), посвященного тому же, то мой ресурс опередит ваш по релевантности.
Url — адрес непосредственно. Актуально только при запросах на английском языке. То есть, если ваш сайт имеет по остальным показателям точно такую же степень соответствия запросу "homyak", что и другой, но имеет адрес http://www.domen/domen1/domen2/homyak/, а тот просто http://www.homyak.com, то многие поисковые машины поставят его раньше вашего в своем листе.
Разные поисковые машины учитывают еще многое. Все вспоминать нет ни смысла, ни времени — овчинка не стоит выделки.
Итак, если вы учли все выше написанное, ваш документ должен быть достаточно популярен в своей тематике. Однако, проблема возникает тогда, когда текста в страничке почти нет или нет вообще (к примеру, если сайт представляет из себя галерею картин и выполнен в сугубо графическом виде). Так делать, конечно, не стоит, но что, если уже сделано? Во многих поисковых машинах (AltaVista, Rambler) такой ресурс никогда не поднимется к видимой границе. Тогда я советую применить прием, которым пользуются довольно часто некоторые не совсем честные (хитрые в смысле) веб-мастера. Примените на своей страничке одноцветный фон и напишите внизу странички этим же цветом предложений десять о предмете сайта. Пользователи этого текста не увидят, а поисковый сервер значительно увеличит релевантность вашего ресурса запросу. Кстати, этой же методикой лечится и то, что вас не будет находить машина, если вы в тегах и заголовке написали всякие популярные запросу слова, а содержание вашего ресурса несоответствующее. Но! Спам это плохо, и никогда им не пользуйтесь. Законные и честные методы и так позволяют добиться высокой популярности, и ваше честное имя ничем не будет запятнано.
Ну, перейдем непосредственно к части статьи, что стоит, а что не стоит делать для повышения популярности ресурса.

Стоит:
1) Создавать ресурсы на редкие темы. Не стоит делать сайт или очень широкой тематики, или очень популярной в Интернет. То есть, меньше всего шансов добиться популярности создателям следующих тематик (для русского Интернет):
— порно и эротика. Самая популярная тема, но и ресурсов огромнейшее количество. Гарантирую, что если вы не очень опытный создатель сайтов, то ваш ресурс будет собирать не более двух десятков пользователей. К тому же, это во многом незаконно, а срока давности преступлений у нас нет. Так что если не посадят сейчас, то это будет вполне реально лет через пяток.
— Халява и заработок в Интернет. Тоже в основном из-за огромного количества. К тому же, это уже большинству просто надоело — действительно, смешно читать о возможности заработка до 5 000 долларов на ресурсе с дизайном уровня детского сада и размещенного на бесплатном хостинге.
— Дизайн интернет-сайтов. В принципе, это неплохая была бы тематика. Но вся русская часть мировой паутины переполнена сайтами с содержанием — "Советы веб-мастерам начинающим от веб-мастера конченого". Эти ресурсы, как правило, бездарны по дизайну (хуже некуда, даже сравнивать не с чем) и являются первыми у своих авторов.
2) Необходимо проверить, какие слова на эту тематику наиболее популярны. Посмотрите другие сайты с такой же темой, определите, какие из них наиболее популярные и почему. Примените это у себя, особенно в плане ключевых слов и заголовков.
3) Узнайте, есть ли рейтинги и каталоги на подобную тематику. Если есть — обязательно зарегистрируйтесь там, но не раньше, чем ваш сайт будет полностью готов. Если администратор каталога придет посмотреть ваш ресурс и увидит там копающего мужичка с надписью "Under construction", он вас выкинет из своего ресурса навсегда.
4) Стоит на индекс-странице употребить побольше фраз, повторяющих тематику вашего сайта в том или ином плане. Но опять же, все надо делать с умом.
5) Постарайтесь разместить на первой странице как можно больше ссылок на документы своего сайта. Причина — многие сетевые агенты не идут с индексацией дальше второго уровня. Если у вас ссылки не предусмотрены дизайном, сделайте их скрытыми по методике, описанной выше.
6) Желательно, чтобы на большинстве страниц у вас была ссылка на начальный документ. Причина — спайдер выдаст пользователю какую-то вашу страничку, которая может являться лишь частью темы или вообще не раскрывать ее. Пользователь всегда должен иметь возможность увидеть основной документ.
7) Желательно использовать подписки. Если ваш сайт понравился посетителю, то он оставит вам свой e-mail в вашей форме для подписи на рассылку новостей сайта. И если вы после каждого обновления будете посылать уведомление об этом, то большинство пользователей несомненно вернутся еще не раз. Но тут не стоит спамить — посылайте информацию нечасто, не в большом количестве и только тем, кто подписался сам. А то ведь многие покупают список электронных адресов тысяч так в 100 и шлют по нему. В Америке за такое уже садят (правда, если денег много — штрафом можно отделаться).
8) Регистрироваться лучше всего в каждом из поисковиков в отдельности, в крайнем случае, при помощи служб, регистрирующих не более чем в двух десятках поисковых серверов. Но никак не при помощи программ, предлагающих сделать это в нескольких тысячах — результат будет неудовлетворительный.
9) Если у вас посещение большое, то стоит регистрироваться в рейтингах — к примеру, www.rambler.ru. Если посещение маленькое, то смысла нет никакого, правда, и вреда тоже.
10) Стоит пользоваться системами обмана баннерами. Это очень хороший приток посетителей. Если есть деньги, то можно заплатить за рекламу — многие поисковые машины ставят ресурс за деньги в первую десятку соответствия.
11) Лучше всего дать сайту небольшое, но странное имя. Пользователь его сможет запомнить и возможно еще не раз к вам вернется. Оно должно повторяться в URL. Если ваш сайт это страница организации, то название сайта должно быть названием организации.

Не стоит:
1) Самая большая ошибка — применять слова, часто используемые при запросах. То есть, достаточно часто владельцы сайтов, чтобы поднять посещаемость своих ресурсов, пишут в ключевых словах наиболее популярные выражения на ведущих серверах, такие как "porno, sex, mp3, free, playboy". Делать так не стоит. Во-первых, им соответствует огромное количество ресурсов, раскрученных уже давно и профессионально, и вы все равно не сможете подняться со своим сайтом до границы видимости (если вы гений Интернет). А во-вторых, вас могут вообще выкинуть из индексации, если ваш сайт не соответствует указанной тематике. Самый верный способ иметь высокую посещаемость — сделать ресурс на редкую (до разумного предела) тему. К примеру, подводные лодки или живопись Дали.
2) Не превышайте допустимый размер в title (240 знаков), description (180 — 200 знаков), keywords (20 слов). Во-первых, многие поисковые машины просто-напросто не будут индексировать вашу страничку, а во-вторых, при большом количестве слов релевантность запроса на любое из них снижается. Суть здесь в чем — действует принцип среднего арифметического. Если на запрос "хомяк" есть ответ на одном и втором сайте, но на одном пять слов, а на другом — сорок, то соответствие на первом в восемь раз выше, чем на втором.
3) Не стоит использовать одни заглавные буквы как в заголовке сайта, так и в его тексте. Многие машины просто не будут индексировать такой документ. Лучше сделайте хитро — напишите все слова в заглавии только начинающимися с заглавных букв.
4) Последнее время поисковые серверы проверяют index страницу на размер. Если он меньше 1 килобайта, то шпион просто уйдет. Возможно, это защита от еще одного вида спама — reload to other page (автоматическая перезагрузка на другой странице). Поэтому не создавайте первую страницу вида "Enter" и все.
5) Если у вас на странице применен refresh with url (обновить с новым адресом) с параметром менее двадцати секунд, то ваша страница также не будет добавлена в поисковый сервер.
6) Стоит отказаться от применения фреймов в принципе. Во-первых, это сама по себе упадочная технология и ничего, кроме упрощения работы веб-мастерам, не несет. Учитесь хорошо работать с таблицами — там есть все необходимые возможности. А в отношении нашей тематики, так поисковые серверы просто не переваривают фреймы. В чем причина? Что такое фрейм? Это отдельный htm* документ, показываемый в особой части окна браузера. То есть, самый примитивный фрейм-документ состоит из трех файлов — файла, который показывает, что и где размещать, и двух документов с информацией. Как правило, один из них — непосредственно содержание, а второй — меню. Так представьте два случая — оптимистичный (сервер покажет только файл с информацией) и пессимистичный (поисковик покажет только меню). Оба кране неприятны. Правда, в последнее время многие поисковые машины учатся работать с фреймами, но с относительным успехом.
7) Постарайтесь применять как можно меньше изображений без Alt текста.
8) Многократное повторение одного слова. Раньше это работало. Сейчас такие фокусы у вас не пройдут ни в одном из нормальных серверов. Ваш документ будет выкинут из индексации. Да, в русском Интернет есть обходной маневр — окончания. Можно написать одно слово в разных падежах и родах — и поисковая машина, несомненно, не обойдет вас стороной. Но тут опять же возникает моральный выбор — использовать или не использовать спам.
9) Постарайтесь отказаться от ссылок к так называемым спонсорам. Поисковые серверы очень нехорошо реагируют на cgi, в лучшем случае не индексируют эту ссылку, в худшем случае вообще уйдет с вашего документа.
10) Не стоит многократно регистрироваться в одном и том же поисковике. У вас будет два варианта — или повезет, или выкинут навсегда.
11) Забывать о небольших поисковых системах. Очень большое заблуждение многих владельцев сайтов — почему-то считается, что большие принесут больше посетителей. Если вы окажетесь в первой сотне по релевантности, то да, конечно. Но в том-то и дело, что шанс оказаться в зоне видимости монстров поиска вроде Altavista практически нулевой. А в небольших системах вы как раз-таки можете занять лидирующие позиции и именно они будут вам приносить большинство посещений.
На этом описание того, что помогает сделать сайт популярным, закончим. Сразу скажу, что написать все тонкости невозможно, и многие могут предложить еще кучу способов повышения релевантности ресурса. Но все же я постарался написать все то, что считаю важным в этом вопросе. В свое время это мне помогло при раскрутке сайтов (последний, к примеру, по прямому запросу тематики всегда попадает в первую тридцатку большинства серверов), надеюсь, поможет и вам. Единственное, что хотелось бы посоветовать — подумайте, прежде чем создавать ресурс, зачем вам это надо. Можете поверить, заработать непосредственно на посещении вам вряд ли удастся, на так называемой халяве тем более. Единственный способ действительно хоть что-то заработать на сайте — перенести туда реальный бизнес (к примеру, создать интернет-магазин). А лучше всего нарисуйте сайт для души, так называемый homepage. Дохода не будет, но вы получите знания, которые вам, возможно, понадобятся в будущем, и новых знакомых и друзей, что, возможно, гораздо ценней долларов.

Юрий Гурский

(c) компьютерная газета


Компьютерная газета. Статья была опубликована в номере 47 за 2000 год в рубрике интернет :: разное

©1997-2021 Компьютерная газета