СоНоты

Вершки Рунета vs Яндекс

В работе Методы сравнительного анализа современных поисковых систем и определения объема Рунета. И.В. Сегалович, Ю.Г. Зеленков, Д.О. Нагорнов (Яндекс) среди прочих высказывается идея приблизительного равенства отношений объёмов результатов сэмпплирования каких-либо двух поисковых машин и отношений реальных объёмов их архивов (т.е. баз проиндексированых документов). В приложениее к этой работе приводится список 120 редковстречаемых однословных запросов, использованых для сравнения крупных поисковых машин Рунета. Используя этот список запросов и зная реальные объёмы баз Яндекса (1'192'438'541) и Вершков Рунета (1'060'916), можно проверить верность этой идеи.

По результатам проверки этих редких однословных запросов получилось, что среднее отношение числа найденых результатов поисковой машины «Вершки Рунета» к числу найденых Яндексом равно 1:85, в то время как отношение чисел проиндексированых страниц равно 1:1124. Разница отношений - два порядка...
Одной из особенностей поисковой машины  «Вершки Рунета» является то, что она индексирует только заглавные страницы сайтов РуНета, т.е. указаное выше несоответствие выдвинутой идее можно отчасти объяснить тем, что с "углублением" индексирования сайтов, новой информации получается много меньше, чем указано на заглавных страницах этих сайтов.