Перейти к содержимому

3

На сегодня назначен запуск публичного бета-тестирования нового поисковика по Рунету Вебальта. В блоге разработчиков появилась запись, сообщающая о примерно 40 запросах в секунду, обрабатываемых системой в данный момент.

5

Для поисковых машин «Интернет Сочи» и «Вершки Рунета» добавлена функция учёта кликов посетителей по результатам поиска. Эти данные используются при расчёте рейтинга популярности страниц.

13

Открылся форум обсуждения всех поисковых движков с открытым исходным кодом: searchengines.o0o.ru. Открыты отдельные разделы для движков Nutch, ASPseek, mnoGoSearch, DataparkSearch и ht://Dig, а также для всех остальных. Есть разделы последних новостей и обсуждения релизов, плюс раздел для англоговорящих посетителей.

1

На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).

Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.

P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.

3

Обнаружил любопытный "поисковик" от Liveinternet.ru. Идея заключается в том, что в результатах поиска показываются сайты, на которые осуществлены переходы по этому запросу с других поисковым машин. Сайты упорядочиваются по общему числу переходов на все страницы сайта по запросам, содержащим искомую фразу. Показывается две популярные в переходах по данному запросу страницы сайта. Естественно, учитываются только переходы на те сайты, на которых установлен счётчик Liveinternet.

Во Франции сегодня запущен géoportail.fr, конкурента сервиса Google Earth. На данный момент, показывается только территория Франции, но с лучшим качеством и более подробно, нежели в Google Earth.

CNN.com

6

В этой таблице приведено сравнение поисковых машин на запросах "Сочи" и "Sochi" (как точных фраз).

"Сочи" "Sochi"
страниц сайтов страниц сайтов
Яндекс 6358878 3295 478076 1622
Рамблер 8870080 124677 628753 26317
Апорт 20000 4585 20000 1474
43°с.ш.39°в.д. 122950 ~4065 47240 ~2146
Webalta ~2681000 ~229000
Google ~86700000 ~2450000
MSN Search 1146488 358890
Yahoo! ~4850000 ~1060000

Лидеры роста: Google и Webalta. Значительное сничение числа находимых документов у Yahoo!. Поисковик A9.com в точности повторяет выдачу MSN Search, поэтому он убран из таблицы.

См. данные предыдущего месяца.

7

Небольшой эксперимент:

time lynx -mime_header 43N39E: запрос 'sochi'
real 0m1.007s
user 0m0.009s
sys 0m0.001s
time lynx -mime_header Yandex: запрос 'sochi'
real 0m0.213s
user 0m0.000s
sys 0m0.009s
time lynx -mime_header Rambler: запрос 'sochi'
real 0m11.188s
user 0m0.011s
sys 0m0.001s
time lynx -mime_header Nigma: запрос 'sochi'
real 0m5.731s
user 0m0.010s
sys 0m0.001s
time lynx -mime_header Yahoo!: запрос 'sochi'
real 0m12.623s
user 0m0.004s
sys 0m0.007s
time lynx -mime_header MSN Search: запрос 'sochi'
real 0m0.802s
user 0m0.010s
sys 0m0.000s
time lynx -mime_header Google: запрос 'sochi'
real 0m2.087s
user 0m0.010s
sys 0m0.000s

Рамблер, Нигма, Yahoo и Google не сжимают ответ клиенту, даже если клиент поддерживает сжатие, -- как итог время получения ответа клиентом примерно на порядок больше, чем могло бы быть!

1

В статистику поисковых машин sochi.org.ru и 43N 39E добавлен новый параметр -- число проиндексированых сайтов, а если точнее -- число сайто, с которых проиндексирована хотя бы одна страница. Для сочинского сегмента сети интернет это число равно 3286 сайтам. Можно сказать это число сайтов в РуНете предоставляющих информацию о Сочи и его окрестностях.

Также примерно с месяц назад появилась возможность просматривать новые или изменённые документы, бнаруженные поисковой машиной за последние два дня. Кажется я об этом ещё не писал, если кому интересно, то: последние изменения на sochi.org.ru.

3

В этой таблице приведено сравнение поисковых машин на запросах "Сочи" и "Sochi" (как точных фраз).

"Сочи" "Sochi"
страниц сайтов страниц сайтов
Яндекс 5538158 3180 409197 1240
Рамблер 7518819 110267 476629 18413
Апорт 20000 4558 20000 1290
43°с.ш.39°в.д. 129940 ~3990 50666 ~2218
Webalta ~945000 ~82000
Google ~20100000 ~2560000
MSN Search 1125009 364462
A9.com 1125009 364462
Yahoo! ~6080000 ~2160000

Лидеры роста: Google, Yahoo! и Яндекс. Webalta возобновила свою работу. С прошлого месяца поисковик A9.com официально сменил движок с Google на MSN Search, однако его выдача точно повторяет выдачу MSN Search. Возможно речь идёт не о смене движка, а о простой трансляции результатов MSN Search.

См. данные предыдущего месяца.