Рунет перевалил за миллиард
Участники научного проекта Nigma.ru провели оценку суммарного объема русскоязычных документов в поисковых системах, с помощью которых в данный момент осуществляет поиск проект Nigma.ru, и получили следующий результат: по состоянию ня 16-е мая 2005 года в Интернете имеется примерно 1'052'227'229 русскоязычных документов.
Это вторая попытка группы посчитать размер Рунета - первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. "устойчивостью" - при изменении некоторых параметров, оценка количества документов не колебалась около т.н. "равновесного решения", а резко изменялась. Новый алгоритм лишен этого недостатка - он основывается на "закачивании" случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, о которой известен размер ее базы.
Первоначально, устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20-30% документов Рунета осталось непроиндексированными ни одной из поисковой машин, использующихся в проекте Nigma.ru.
Участники проекта надеются, что это исследование даст толчок многим поисковым системам и, в результате, российский Интернет будет проиндексирован еще лучше и глубже, чем он проиндексирован сейчас, что даст возможность пользователям Рунета искать и находить важную для них информацию гораздо быстрее и проще.
Это вторая попытка группы посчитать размер Рунета - первая окончилась неудачно, т.к. предложенный тогда алгоритм не обладал т.н. "устойчивостью" - при изменении некоторых параметров, оценка количества документов не колебалась около т.н. "равновесного решения", а резко изменялась. Новый алгоритм лишен этого недостатка - он основывается на "закачивании" случайных запросов, созданных на базе частотного словаря, и сравнении общего объема выданных результатов со всех поисковых машин, с которыми работает Nigma.ru, и эталонной поисковой машины, о которой известен размер ее базы.
Первоначально, устранение дублей происходило по URL и заголовкам документов, однако во второй версии, с использованием частотного словаря, количество дублей резко сократилось, и сейчас используется только URL. Если исключить из алгоритма одну из поисковых машин, оценка в среднем падает всего на 12%. Соответственно, возможно, что не более 20-30% документов Рунета осталось непроиндексированными ни одной из поисковой машин, использующихся в проекте Nigma.ru.
Участники проекта надеются, что это исследование даст толчок многим поисковым системам и, в результате, российский Интернет будет проиндексирован еще лучше и глубже, чем он проиндексирован сейчас, что даст возможность пользователям Рунета искать и находить важную для них информацию гораздо быстрее и проще.