Интернет — инструмент бизнес-разведки
Кто владеет информацией — тот владеет миром. В современную эпоху жестокой глобальной конкуренции эта древняя истина стала особо актуальна. Тем более, что человечество изобрело универсальное хранилище данных — Интернет. Популярное в конце 90-х высказывание "В Интернете можно найти все" актуально и сегодня. Вот только найти то, что действительно нужно, стало намного сложнее. Не случайно крупнейшие мировые компании и банки давно уже создали в своей структуре отделы интернет-разведки, а теперь подобную необходимость осознали и компании средней руки.
Заметная польза
Чаще всего компании используют технологии интернет-разведки в нескольких очевидных случаях:
1. Подбор и проверка персонала. Прежде всего, подбор — именно в Сети проще и быстрее всего отыскать резюме нужного специалиста. Однако Интернет полон желающих выдать желаемое за действительное. Но он же дает хорошие возможности проверить все пункты резюме. Например, в последнее время среди специалистов по персоналу крупных компаний популярны RSS-ленты на основе форумов, чатов и блогов, из которых можно почерпнуть самую разнообразную информацию о соискателе — начиная с отзывов бывших коллег и заканчивая угрозами "кинутых" клиентов. Так, кстати, легко и выявить мошенников, стремящихся устроиться на работу.
2. Анализ работы конкурентов. Для этого в Интернете имеются все возможности — начиная с банального исследования сайта "бизнес-противника" и заканчивая скрупулезным анализом тематических форумов. Одно только место в результатах поисковых запросов, например, в Yandex и Google может о многом рассказать. Вообще грамотное использование возможностей поисковых систем и прочих инструментов работы с Сетью может раскрыть почти всю подноготную чужого бизнеса. Но это уже в чистом виде интернет-разведка, а о ней мы поговорим ниже.
3. Самопродвижение. В наши дни подавляющее большинство потенциальных клиентов получают первое впечатление о фирме по ее интернет-сайту: какой у него дизайн и навигация, удобен ли он, какое место занимает в поисковиках и т.п. Если вы сами высокого мнения об уровне своего "интернет- представительства", проведите один простой эксперимент. Наберите в строке запроса Yandex команду: #link="www.имя_вашего_сайта", а затем проделайте то же самое, вставив название компаний — основных конкурентов. Посмотрите на строчку "Результат поиска", и увидите цифру, показывающую, на чью страничку посетители приходят чаще. Если у вашего сайта число меньше — ситуация с обликом вашей компании в Сети оставляет желать лучшего. Впрочем, увеличить посещаемость обычно не составляет труда. Тут главное — вовремя выявить тревожные симптомы.
4. Мониторинг рекламной эффективности. Один известный менеджер сказал: "Я точно знаю, что половина моего рекламного бюджета тратится впустую, но я не знаю, какая именно". Любая рекламная кампания — вещь дорогостоящая, малоэффективная и неизбежная, так что очень важно понять, каков в итоге эффект от финансовых вложений в нее. В Интернете это возможно сделать при помощи достаточно простых средств. Например, проанализировать частоту упоминаний названия фирмы в СМИ и сравнить с аналогичным показателем конкурентов. Проанализировать контекст таких упоминаний (Положительный? Негативный?). "Потусоваться" на тематических форумах, выдавая себя за "ищущего потребителя". В общем, тут все ограничено только вашей фантазией. 5. Обеспечение безопасности. Интернет — идеальное место для того, чтобы собрать данные о настоящих и потенциальных бизнес-партнерах. Там же можно найти максимум информации о профессиональных мошенниках, действующих на различных рынках. Не случайно сегодня компании, специализирующиеся на безопасности бизнеса, предлагают услуги по сбору информации и мониторингу в Интернете. Возникнув как компонент традиционной конкурентной разведки, интернет-разведка быстро обрела свой арсенал приемов, методов и инструментов. Уже сформировался и круг соответствующих специалистов и бизнес-тренеров. Но можно в стороннюю фирму и не обращаться — если, разумеется, в штате есть собственный такой специалист. Иметь его полезно любой компании, так как интернет-разведка — это не разовое мероприятие, а непрерывный процесс.
"Темная материя" Интернета
Выступая на ежегодной конференции Национальной ассоциации рекламодателей США, глава Google Эрик Шмидт заявил, что его компания сможет проиндексировать всю информацию на планете примерно через 300 лет. По словам Шмидта, в настоящее время из пяти миллионов терабайт существующей информации проиндексировано лишь 170 Тб. Неясно лишь одно: учел ли глава Google при подсчетах ту информацию, которая появится в течение тех самых трех веков. По мнению специалистов, более 97% информации в Интернете невидимо для поисковых машин. То, что мы используем в своей повседневной деятельности, — это так называемый "Видимый Интернет" (Visible Web), или "Поверхностный Интернет" (Surface Web). Это все то, что может быть проиндексировано программами-роботами поисковых машин и редакторами поисковых каталогов Интернета (Open Directory).
В свою очередь, "Невидимый Интернет" (Invisible Web), или "Глубинный Интернет" (Deep Web), или "Скрытый Интернет" (Hidden Web) — это все то, что, в принципе, доступно через подключенный к Интернету компьютер (по протоколу http и через http-шлюзы, специализированные клиенты, иные протоколы и сети), но по разным причинам не попадает в поле зрения поисковых роботов или заинтересованных пользователей. По оценкам BrightPlanet, в июле 2000 г. "невидимый Интернет" составлял 550 млрд индивидуальных документов в сравнении с 1 млрд документов "видимой" его части. Сегодня обе эти цифры нужно умножать на 10. При этом BrightPlanet отмечает более высокое качество документов в базах данных в сравнении с "поверхностным" Интернетом. Причин "невидимости" может быть великое множество. К примеру, данные представлены в нестандартном формате (офисные: doc, pdf, xls, ppt; архивные: zip, rar, arj, chm, msi; устаревшие chi и др.) или вообще на неизвестном языке либо в неизвестной кодировке. Проблему несколько облегчают корпоративные информационные системы, снабженные определителями языка и кодировок, конверторами файлов, программы для скачивания файлов и сайтов из Сети в паре с программами поиска на локальных дисках, а также специализированные поисковые системы. Но нужно учитывать, что в большинстве документов офисных форматов есть "невидимая" часть, которая может включать персональные и корпоративные данные, метаданные и как правило не индексируется. Например, невидимыми являются данные об авторе (MS Word: "Главное меню — Файл — Свойства — Документ" или "Главное меню — Файл — Свойства — Прочие"), скрытые и удаленные куски текста и многое другое. Для обнаружения и удаления таких фрагментов в файлах doc, rtf, xls, ppt, pdf и других форматов используют специализированные программы и возможности отдельных поисковых систем. Бывает, что найденный текст не виден или не копируется. Затруднения доступа вызывают сами интернет-технологии — например, всплывающие на страницах подсказки с фактографической информацией, данные Macromedia Flash или шифрование html-кода. Критическая информация бывает скрыта в html-коде найденной страницы и не всегда корректно показывается браузером. В таких случаях приходится изучать исходный html-код страницы и искать непосредственно в нем нужный текст. Иногда специалисты делают локальную копию сайта и ищут в html-коде страниц требуемые фрагменты текста, используя, например, полнотекстовый поиск Windows.
Но чаще всего бывает так, что увидеть через поисковую систему как существующий на сайте документ, так зачастую и весь сайт не позволяют административные и технические барьеры (нужный текст исключается согласно негласной политике индексирования конкретной поисковой системы). Причины такого исключения могут быть самыми разнообразными: официальные предписания и судебные решения, авторское право, корпоративная политика, требования хостинг-провайдеров, предполагаемое дублирование, поисковый спам, провокации конкурентов, произвол системных администраторов и т.д. Очень часто информация, которую целенаправленно ищет интернет-разведчик, находится на страницах только для персонала. Для авторизованного доступа служащих компании и партнеров предназначена закрытая часть корпоративных сайтов. В некоторых случаях роботы поисковых систем проникают на закрытую часть сайта, но это скорее исключение, чем правило. Попытки интуитивного поиска закрытой информации на корпоративных сайтах собственными силами как правило малопродуктивны. К тому же, служебная часть корпоративных сайтов может быть размещена не только на основном корпоративном домене второго уровня, но и на доменах третьего и четвертого уровней. При этом на "закрытый" домен третьего или четвертого уровня может не вести ни одна ссылка с домашней и других открытых страниц изучаемого сайта, а его просмотр может быть открытым. Для обнаружения таких доменов на корпоративном домене второго уровня используются специализированные поисковые серверы доменных имен. Ну и, наконец, нужно учитывать, что из индекса поисковых систем общего назначения практически полностью выпадают новости, объявления, дискуссии, блоги, форумы, рассылки, пресс- релизы, тендерная информация и т.п.
Технологии интернет-разведки
Используя специальные методы интернет-поиска, можно получить вполне легальный доступ к конфидециальным данным. Статус Интернета как глобальной сети открытых источников информации сводит к нулю риск правонарушения в процессе корректно проведенного расследования (поиск или конкурентная разведка через Интернет). Однако для профессионального поиска фактографической информации простые переходы по гипертекстовым ссылкам малопродуктивны. Намного больший эффект дает методика обратного поиска, использующая индекс ссылок. Она позволяет обеспечить практически на любых поисковых системах Интернета уровень точности не ниже 90%. Иными словами, доля неподходящих документов, собранных по профессионально сделанным запросам, не превышает 10%. Однако сложность изысканий по открытым источникам в Интернете усугубляется фундаментальными пороками самого поиска в текстах. При полнотекстовом поиске все условия запроса ограничены рамками одного документа. Но в большинстве случаев конкретного документа, включающего все искомые элементы, в природе не существует. Решение "размазано" по множеству документов, и процесс подготовки отчета порой напоминает классическое уголовное расследование. В таком случае операция поиска становится многоходовой и требует грамотного выбора самого экономичного сценария. Сложный проект разбивается на мелкие этапы, и каждый следующий этап поиска опирается на результаты предыдущего (аналогия с лестницей).
Обычно первые же попытки проведения бизнес-разведки в Интернете наталкиваются на ограниченную функциональность поисковых систем. Любимый пользователями Google при индексировании никакие словоизменения не учитывает и имеет максимальную длину запроса всего 32 слова. Тут нужно применять технику оптимизации поисковых запросов, метапоисковые системы, локальные поисковые системы и корпоративные хранилища информации. Хороший эффект дает использование проблемноориентированных баз данных и поисковых систем. Они должны удовлетворять следующим требованиям: приемлемая достоверность, удовлетворительная абсолютная полнота (число подходящих документов в разы больше, чем в других источниках) или относительная полнота (доля подходящих документов выше, чем в других источниках). Доля подходящих документов — это отношение числа подходящих документов к общему числу документов в базе данных. Ну и, разумеется, высокая оперативность (абсолютная или относительная полнота, рассчитанная по документам за последний период актуальности: час, день, неделю, месяц).
Ограниченные роботы
Самые популярные у пользователей поисковые системы на самом деле имеют многочисленные ограничения. Причины их появления различны: это ошибки проектирования, ошибки программной реализации, искусственные ограничения анализаторов текстов и поисковых запросов при формировании и обновлении индексов поисковой системы и поиске и т.д. Например, находить в текстах сумму в долларах "$123" может только Google, остальные поисковые системы показывают 123, 00123 и т.п. Некоторые спецсимволы, попавшие в запрос, вызывают сбои работы конкретной поисковой системы. В результате при значительном количестве подходящих документов и правильной формулировке запроса пользователь получает "ничего не найдено". В таких случаях приходится применять специальные техники поиска, основанные на знании принципов работы поисковых систем.
Прежде всего нужно помнить, что робот публичной поисковой системы всегда четко выполняет предписания web-мастеров. А они могут ограничить индексирование сайта целиком или его частей, отдельных документов и их частей, а также переходы по ссылкам. По мнению специалистов поисковых систем Google и Yahoo, такие ограничения введены на 5-6% сайтов. Если интернет-разведчик обнаруживает, что какие-то папки сайта, ссылки или документы поисковыми системами не индексируются, то их целесообразно исследовать в первую очередь. В таком случае сайт логично целиком скопировать на жесткий диск, а потом применить к нему программу локального полнотекстового поиска. Также поисковый робот не может выполнить элементарный сценарий — пройти регистрацию на сайте, авторизацию для входа на закрытую часть корпоративного сайта или ресурс с коммерческим доступом, выполнить последовательность операций доступа к конкретному файлу, выбора необходимых условий или ввода данных в форму поискового запроса. Практически все динамические документы, формируемые на лету по запросам пользователей, большинством поисковых систем не индексируются. В данном случае могут помочь макрокоманды некоторых программ мониторинга страниц и серверов Интернета, а также корпоративные хранилища и системы поиска.
Особенности Сети
Интернет как глобальная информационная система обладает множеством особенностей, которые затрудняют поиск необходимой информации. Но — парадокс! — эти же особенности могут значительно повысить эффективность интернет-разведки. Например, разнообразие протоколов: документы в Сети доступны не только по http, но и таким протоколам передачи и поиска данных, как WAIS, Gopher, WAP, ftp, telnet, z3950, rss, imap, pop3, smtp. Информация части сервисов просто мимолетна — это сообщения электронной почты, чаты, комментарии к блогам, форумы. Нужно уметь искать или знать адреса http- шлюзов для поиска в соответствующих коллекциях либо установить специализированные программы мониторинга и просмотра (клиенты telnet, z3950, rss). К тому же, нельзя забывать, что Интернет — это отнюдь не только Web. Клиенты для обмена файлами по специализированным протоколам (Ares, BitTorrent, DirectConnect, ED2K, EDonkey, EMule, Gnutella, Kazaa/FastTrack, Magnet, Napster, OpenNapster, Overnet, Piolet, Torrent) и поиска в файловых архивах (FTP) позволяют находить весьма интересные материалы. Ну и, наконец, Интернет неоднороден во времени. Вчера критически важная для бизнеса информация или доказательство правонарушения были обнаружены, а сегодня их уже убрали с сайта. Нужные тексты могут быть недоступны и из-за проблем на серверах (отказы в обслуживании, простои оборудования). Для получения доступа к "ускользающим" документам используются метапоисковые серверы и программы. Хороший эффект дает также просмотр сохраненных поисковыми системами копий документов (кэш поисковых систем) и интернет-архивов.
Денис Лавникевич
Заметная польза
Чаще всего компании используют технологии интернет-разведки в нескольких очевидных случаях:
1. Подбор и проверка персонала. Прежде всего, подбор — именно в Сети проще и быстрее всего отыскать резюме нужного специалиста. Однако Интернет полон желающих выдать желаемое за действительное. Но он же дает хорошие возможности проверить все пункты резюме. Например, в последнее время среди специалистов по персоналу крупных компаний популярны RSS-ленты на основе форумов, чатов и блогов, из которых можно почерпнуть самую разнообразную информацию о соискателе — начиная с отзывов бывших коллег и заканчивая угрозами "кинутых" клиентов. Так, кстати, легко и выявить мошенников, стремящихся устроиться на работу.
2. Анализ работы конкурентов. Для этого в Интернете имеются все возможности — начиная с банального исследования сайта "бизнес-противника" и заканчивая скрупулезным анализом тематических форумов. Одно только место в результатах поисковых запросов, например, в Yandex и Google может о многом рассказать. Вообще грамотное использование возможностей поисковых систем и прочих инструментов работы с Сетью может раскрыть почти всю подноготную чужого бизнеса. Но это уже в чистом виде интернет-разведка, а о ней мы поговорим ниже.
3. Самопродвижение. В наши дни подавляющее большинство потенциальных клиентов получают первое впечатление о фирме по ее интернет-сайту: какой у него дизайн и навигация, удобен ли он, какое место занимает в поисковиках и т.п. Если вы сами высокого мнения об уровне своего "интернет- представительства", проведите один простой эксперимент. Наберите в строке запроса Yandex команду: #link="www.имя_вашего_сайта", а затем проделайте то же самое, вставив название компаний — основных конкурентов. Посмотрите на строчку "Результат поиска", и увидите цифру, показывающую, на чью страничку посетители приходят чаще. Если у вашего сайта число меньше — ситуация с обликом вашей компании в Сети оставляет желать лучшего. Впрочем, увеличить посещаемость обычно не составляет труда. Тут главное — вовремя выявить тревожные симптомы.
4. Мониторинг рекламной эффективности. Один известный менеджер сказал: "Я точно знаю, что половина моего рекламного бюджета тратится впустую, но я не знаю, какая именно". Любая рекламная кампания — вещь дорогостоящая, малоэффективная и неизбежная, так что очень важно понять, каков в итоге эффект от финансовых вложений в нее. В Интернете это возможно сделать при помощи достаточно простых средств. Например, проанализировать частоту упоминаний названия фирмы в СМИ и сравнить с аналогичным показателем конкурентов. Проанализировать контекст таких упоминаний (Положительный? Негативный?). "Потусоваться" на тематических форумах, выдавая себя за "ищущего потребителя". В общем, тут все ограничено только вашей фантазией. 5. Обеспечение безопасности. Интернет — идеальное место для того, чтобы собрать данные о настоящих и потенциальных бизнес-партнерах. Там же можно найти максимум информации о профессиональных мошенниках, действующих на различных рынках. Не случайно сегодня компании, специализирующиеся на безопасности бизнеса, предлагают услуги по сбору информации и мониторингу в Интернете. Возникнув как компонент традиционной конкурентной разведки, интернет-разведка быстро обрела свой арсенал приемов, методов и инструментов. Уже сформировался и круг соответствующих специалистов и бизнес-тренеров. Но можно в стороннюю фирму и не обращаться — если, разумеется, в штате есть собственный такой специалист. Иметь его полезно любой компании, так как интернет-разведка — это не разовое мероприятие, а непрерывный процесс.
"Темная материя" Интернета
Выступая на ежегодной конференции Национальной ассоциации рекламодателей США, глава Google Эрик Шмидт заявил, что его компания сможет проиндексировать всю информацию на планете примерно через 300 лет. По словам Шмидта, в настоящее время из пяти миллионов терабайт существующей информации проиндексировано лишь 170 Тб. Неясно лишь одно: учел ли глава Google при подсчетах ту информацию, которая появится в течение тех самых трех веков. По мнению специалистов, более 97% информации в Интернете невидимо для поисковых машин. То, что мы используем в своей повседневной деятельности, — это так называемый "Видимый Интернет" (Visible Web), или "Поверхностный Интернет" (Surface Web). Это все то, что может быть проиндексировано программами-роботами поисковых машин и редакторами поисковых каталогов Интернета (Open Directory).
В свою очередь, "Невидимый Интернет" (Invisible Web), или "Глубинный Интернет" (Deep Web), или "Скрытый Интернет" (Hidden Web) — это все то, что, в принципе, доступно через подключенный к Интернету компьютер (по протоколу http и через http-шлюзы, специализированные клиенты, иные протоколы и сети), но по разным причинам не попадает в поле зрения поисковых роботов или заинтересованных пользователей. По оценкам BrightPlanet, в июле 2000 г. "невидимый Интернет" составлял 550 млрд индивидуальных документов в сравнении с 1 млрд документов "видимой" его части. Сегодня обе эти цифры нужно умножать на 10. При этом BrightPlanet отмечает более высокое качество документов в базах данных в сравнении с "поверхностным" Интернетом. Причин "невидимости" может быть великое множество. К примеру, данные представлены в нестандартном формате (офисные: doc, pdf, xls, ppt; архивные: zip, rar, arj, chm, msi; устаревшие chi и др.) или вообще на неизвестном языке либо в неизвестной кодировке. Проблему несколько облегчают корпоративные информационные системы, снабженные определителями языка и кодировок, конверторами файлов, программы для скачивания файлов и сайтов из Сети в паре с программами поиска на локальных дисках, а также специализированные поисковые системы. Но нужно учитывать, что в большинстве документов офисных форматов есть "невидимая" часть, которая может включать персональные и корпоративные данные, метаданные и как правило не индексируется. Например, невидимыми являются данные об авторе (MS Word: "Главное меню — Файл — Свойства — Документ" или "Главное меню — Файл — Свойства — Прочие"), скрытые и удаленные куски текста и многое другое. Для обнаружения и удаления таких фрагментов в файлах doc, rtf, xls, ppt, pdf и других форматов используют специализированные программы и возможности отдельных поисковых систем. Бывает, что найденный текст не виден или не копируется. Затруднения доступа вызывают сами интернет-технологии — например, всплывающие на страницах подсказки с фактографической информацией, данные Macromedia Flash или шифрование html-кода. Критическая информация бывает скрыта в html-коде найденной страницы и не всегда корректно показывается браузером. В таких случаях приходится изучать исходный html-код страницы и искать непосредственно в нем нужный текст. Иногда специалисты делают локальную копию сайта и ищут в html-коде страниц требуемые фрагменты текста, используя, например, полнотекстовый поиск Windows.
Но чаще всего бывает так, что увидеть через поисковую систему как существующий на сайте документ, так зачастую и весь сайт не позволяют административные и технические барьеры (нужный текст исключается согласно негласной политике индексирования конкретной поисковой системы). Причины такого исключения могут быть самыми разнообразными: официальные предписания и судебные решения, авторское право, корпоративная политика, требования хостинг-провайдеров, предполагаемое дублирование, поисковый спам, провокации конкурентов, произвол системных администраторов и т.д. Очень часто информация, которую целенаправленно ищет интернет-разведчик, находится на страницах только для персонала. Для авторизованного доступа служащих компании и партнеров предназначена закрытая часть корпоративных сайтов. В некоторых случаях роботы поисковых систем проникают на закрытую часть сайта, но это скорее исключение, чем правило. Попытки интуитивного поиска закрытой информации на корпоративных сайтах собственными силами как правило малопродуктивны. К тому же, служебная часть корпоративных сайтов может быть размещена не только на основном корпоративном домене второго уровня, но и на доменах третьего и четвертого уровней. При этом на "закрытый" домен третьего или четвертого уровня может не вести ни одна ссылка с домашней и других открытых страниц изучаемого сайта, а его просмотр может быть открытым. Для обнаружения таких доменов на корпоративном домене второго уровня используются специализированные поисковые серверы доменных имен. Ну и, наконец, нужно учитывать, что из индекса поисковых систем общего назначения практически полностью выпадают новости, объявления, дискуссии, блоги, форумы, рассылки, пресс- релизы, тендерная информация и т.п.
Технологии интернет-разведки
Используя специальные методы интернет-поиска, можно получить вполне легальный доступ к конфидециальным данным. Статус Интернета как глобальной сети открытых источников информации сводит к нулю риск правонарушения в процессе корректно проведенного расследования (поиск или конкурентная разведка через Интернет). Однако для профессионального поиска фактографической информации простые переходы по гипертекстовым ссылкам малопродуктивны. Намного больший эффект дает методика обратного поиска, использующая индекс ссылок. Она позволяет обеспечить практически на любых поисковых системах Интернета уровень точности не ниже 90%. Иными словами, доля неподходящих документов, собранных по профессионально сделанным запросам, не превышает 10%. Однако сложность изысканий по открытым источникам в Интернете усугубляется фундаментальными пороками самого поиска в текстах. При полнотекстовом поиске все условия запроса ограничены рамками одного документа. Но в большинстве случаев конкретного документа, включающего все искомые элементы, в природе не существует. Решение "размазано" по множеству документов, и процесс подготовки отчета порой напоминает классическое уголовное расследование. В таком случае операция поиска становится многоходовой и требует грамотного выбора самого экономичного сценария. Сложный проект разбивается на мелкие этапы, и каждый следующий этап поиска опирается на результаты предыдущего (аналогия с лестницей).
Обычно первые же попытки проведения бизнес-разведки в Интернете наталкиваются на ограниченную функциональность поисковых систем. Любимый пользователями Google при индексировании никакие словоизменения не учитывает и имеет максимальную длину запроса всего 32 слова. Тут нужно применять технику оптимизации поисковых запросов, метапоисковые системы, локальные поисковые системы и корпоративные хранилища информации. Хороший эффект дает использование проблемноориентированных баз данных и поисковых систем. Они должны удовлетворять следующим требованиям: приемлемая достоверность, удовлетворительная абсолютная полнота (число подходящих документов в разы больше, чем в других источниках) или относительная полнота (доля подходящих документов выше, чем в других источниках). Доля подходящих документов — это отношение числа подходящих документов к общему числу документов в базе данных. Ну и, разумеется, высокая оперативность (абсолютная или относительная полнота, рассчитанная по документам за последний период актуальности: час, день, неделю, месяц).
Ограниченные роботы
Самые популярные у пользователей поисковые системы на самом деле имеют многочисленные ограничения. Причины их появления различны: это ошибки проектирования, ошибки программной реализации, искусственные ограничения анализаторов текстов и поисковых запросов при формировании и обновлении индексов поисковой системы и поиске и т.д. Например, находить в текстах сумму в долларах "$123" может только Google, остальные поисковые системы показывают 123, 00123 и т.п. Некоторые спецсимволы, попавшие в запрос, вызывают сбои работы конкретной поисковой системы. В результате при значительном количестве подходящих документов и правильной формулировке запроса пользователь получает "ничего не найдено". В таких случаях приходится применять специальные техники поиска, основанные на знании принципов работы поисковых систем.
Прежде всего нужно помнить, что робот публичной поисковой системы всегда четко выполняет предписания web-мастеров. А они могут ограничить индексирование сайта целиком или его частей, отдельных документов и их частей, а также переходы по ссылкам. По мнению специалистов поисковых систем Google и Yahoo, такие ограничения введены на 5-6% сайтов. Если интернет-разведчик обнаруживает, что какие-то папки сайта, ссылки или документы поисковыми системами не индексируются, то их целесообразно исследовать в первую очередь. В таком случае сайт логично целиком скопировать на жесткий диск, а потом применить к нему программу локального полнотекстового поиска. Также поисковый робот не может выполнить элементарный сценарий — пройти регистрацию на сайте, авторизацию для входа на закрытую часть корпоративного сайта или ресурс с коммерческим доступом, выполнить последовательность операций доступа к конкретному файлу, выбора необходимых условий или ввода данных в форму поискового запроса. Практически все динамические документы, формируемые на лету по запросам пользователей, большинством поисковых систем не индексируются. В данном случае могут помочь макрокоманды некоторых программ мониторинга страниц и серверов Интернета, а также корпоративные хранилища и системы поиска.
Особенности Сети
Интернет как глобальная информационная система обладает множеством особенностей, которые затрудняют поиск необходимой информации. Но — парадокс! — эти же особенности могут значительно повысить эффективность интернет-разведки. Например, разнообразие протоколов: документы в Сети доступны не только по http, но и таким протоколам передачи и поиска данных, как WAIS, Gopher, WAP, ftp, telnet, z3950, rss, imap, pop3, smtp. Информация части сервисов просто мимолетна — это сообщения электронной почты, чаты, комментарии к блогам, форумы. Нужно уметь искать или знать адреса http- шлюзов для поиска в соответствующих коллекциях либо установить специализированные программы мониторинга и просмотра (клиенты telnet, z3950, rss). К тому же, нельзя забывать, что Интернет — это отнюдь не только Web. Клиенты для обмена файлами по специализированным протоколам (Ares, BitTorrent, DirectConnect, ED2K, EDonkey, EMule, Gnutella, Kazaa/FastTrack, Magnet, Napster, OpenNapster, Overnet, Piolet, Torrent) и поиска в файловых архивах (FTP) позволяют находить весьма интересные материалы. Ну и, наконец, Интернет неоднороден во времени. Вчера критически важная для бизнеса информация или доказательство правонарушения были обнаружены, а сегодня их уже убрали с сайта. Нужные тексты могут быть недоступны и из-за проблем на серверах (отказы в обслуживании, простои оборудования). Для получения доступа к "ускользающим" документам используются метапоисковые серверы и программы. Хороший эффект дает также просмотр сохраненных поисковыми системами копий документов (кэш поисковых систем) и интернет-архивов.
Денис Лавникевич
Компьютерная газета. Статья была опубликована в номере 14 за 2007 год в рубрике интернет