Вершки Рунета vs Яндекс

В работе Методы сравнительного анализа современных поисковых систем и определения объема Рунета. И.В. Сегалович, Ю.Г. Зеленков, Д.О. Нагорнов (Яндекс) среди прочих высказывается идея приблизительного равенства отношений объёмов результатов сэмпплирования каких-либо двух поисковых машин и отношений реальных объёмов их архивов (т.е. баз проиндексированых документов). В приложениее к этой работе приводится список 120 редковстречаемых однословных запросов, использованых для сравнения крупных поисковых машин Рунета. Используя этот список запросов и зная реальные объёмы баз Яндекса (1'192'438'541) и Вершков Рунета (1'060'916), можно проверить верность этой идеи.

По результатам проверки этих редких однословных запросов получилось, что среднее отношение числа найденых результатов поисковой машины «Вершки Рунета» к числу найденых Яндексом равно 1:85, в то время как отношение чисел проиндексированых страниц равно 1:1124. Разница отношений - два порядка...
Одной из особенностей поисковой машины «Вершки Рунета» является то, что она индексирует только заглавные страницы сайтов РуНета, т.е. указаное выше несоответствие выдвинутой идее можно отчасти объяснить тем, что с "углублением" индексирования сайтов, новой информации получается много меньше, чем указано на заглавных страницах этих сайтов.

Похожие записи:

Вершки Рунета vs Яндекс: 22 комментария

Itman 5 ноября 2006 в 0:08

Скажу по секрету, вершки Рунета был не первый поисковик, на котором проявился подобный феномен. Идея такой оценки базируется на предположении, что страницы роботом выбираются более или мнее случайно, а ключевые слова на страницах встречаются тоже более или мнее случайно, то есть облако слов размазано по Интернету. И если поисковые машины придерживаются более или менее одинаковой стратегии, то эти предположения срабатывают. А если нет, то извините. В частности, важные ключевые слова часто концентрируются вокруг главной страницы (не в последнюю очередь благодаря усилиям вебмастеров), а робот поисковика может быть специально настроен на обход страниц с редкими ключевыми словами.

Maxime 5 ноября 2006 в 1:51

Если не срабатывают, то наиболее правдоподобно -- ни одна поисковая машина не индексирует Рунет достаточно полно... Т.е. ещё одно подвеждение, что Рунет возможно в несколько раз крупнее размера базы Яндекса, -- иными словами верно другое предположение яндексоидов, о 7,5-8 млрд. страниц на этот момент 🙂

Похожие записи:

Вершки Рунета vs Яндекс: 22 комментария

Добавить комментарий