Вершки Рунета vs Яндекс
4 Ноябрь 2006 12:59 by MaximeВ работе Методы сравнительного анализа современных поисковых систем и определения объема Рунета. И.В. Сегалович, Ю.Г. Зеленков, Д.О. Нагорнов (Яндекс) среди прочих высказывается идея приблизительного равенства отношений объёмов результатов сэмпплирования каких-либо двух поисковых машин и отношений реальных объёмов их архивов (т.е. баз проиндексированых документов). В приложениее к этой работе приводится список 120 редковстречаемых однословных запросов, использованых для сравнения крупных поисковых машин Рунета. Используя этот список запросов и зная реальные объёмы баз Яндекса (1’192’438’541) и Вершков Рунета (1’060’916), можно проверить верность этой идеи.
По результатам проверки этих редких однословных запросов получилось, что среднее отношение числа найденых результатов поисковой машины «Вершки Рунета» к числу найденых Яндексом равно 1:85, в то время как отношение чисел проиндексированых страниц равно 1:1124. Разница отношений – два порядка…
Одной из особенностей поисковой машины «Вершки Рунета» является то, что она индексирует только заглавные страницы сайтов РуНета, т.е. указаное выше несоответствие выдвинутой идее можно отчасти объяснить тем, что с “углублением” индексирования сайтов, новой информации получается много меньше, чем указано на заглавных страницах этих сайтов.
Popularity: 4%
Похожие записи
- Вершки Рунета: 334120 сайтов
- Топ 256 слов Рунета
- Топ100 слов Рунета
- “Вершки Рунета” по тесту Ашманова и партнёров
- Яндекс опять хандрит
| В Мой Мир |
|

Ноябрь 5th, 2006 at 0:08
Скажу по секрету, вершки Рунета был не первый поисковик, на котором проявился подобный феномен. Идея такой оценки базируется на предположении, что страницы роботом выбираются более или мнее случайно, а ключевые слова на страницах встречаются тоже более или мнее случайно, то есть облако слов размазано по Интернету. И если поисковые машины придерживаются более или менее одинаковой стратегии, то эти предположения срабатывают. А если нет, то извините. В частности, важные ключевые слова часто концентрируются вокруг главной страницы (не в последнюю очередь благодаря усилиям вебмастеров), а робот поисковика может быть специально настроен на обход страниц с редкими ключевыми словами.
Ноябрь 5th, 2006 at 1:51
Если не срабатывают, то наиболее правдоподобно — ни одна поисковая машина не индексирует Рунет достаточно полно… Т.е. ещё одно подвеждение, что Рунет возможно в несколько раз крупнее размера базы Яндекса, — иными словами верно другое предположение яндексоидов, о 7,5-8 млрд. страниц на этот момент