В работе Методы сравнительного анализа современных поисковых систем и определения объема Рунета. И.В. Сегалович, Ю.Г. Зеленков, Д.О. Нагорнов (Яндекс) среди прочих высказывается идея приблизительного равенства отношений объёмов результатов сэмпплирования каких-либо двух поисковых машин и отношений реальных объёмов их архивов (т.е. баз проиндексированых документов). В приложениее к этой работе приводится список 120 редковстречаемых однословных запросов, использованых для сравнения крупных поисковых машин Рунета. Используя этот список запросов и зная реальные объёмы баз Яндекса (1'192'438'541) и Вершков Рунета (1'060'916), можно проверить верность этой идеи.
По результатам проверки этих редких однословных запросов получилось, что среднее отношение числа найденых результатов поисковой машины «Вершки Рунета» к числу найденых Яндексом равно 1:85, в то время как отношение чисел проиндексированых страниц равно 1:1124. Разница отношений - два порядка...
Одной из особенностей поисковой машины «Вершки Рунета» является то, что она индексирует только заглавные страницы сайтов РуНета, т.е. указаное выше несоответствие выдвинутой идее можно отчасти объяснить тем, что с "углублением" индексирования сайтов, новой информации получается много меньше, чем указано на заглавных страницах этих сайтов.
Скажу по секрету, вершки Рунета был не первый поисковик, на котором проявился подобный феномен. Идея такой оценки базируется на предположении, что страницы роботом выбираются более или мнее случайно, а ключевые слова на страницах встречаются тоже более или мнее случайно, то есть облако слов размазано по Интернету. И если поисковые машины придерживаются более или менее одинаковой стратегии, то эти предположения срабатывают. А если нет, то извините. В частности, важные ключевые слова часто концентрируются вокруг главной страницы (не в последнюю очередь благодаря усилиям вебмастеров), а робот поисковика может быть специально настроен на обход страниц с редкими ключевыми словами.
Если не срабатывают, то наиболее правдоподобно -- ни одна поисковая машина не индексирует Рунет достаточно полно... Т.е. ещё одно подвеждение, что Рунет возможно в несколько раз крупнее размера базы Яндекса, -- иными словами верно другое предположение яндексоидов, о 7,5-8 млрд. страниц на этот момент 🙂