На сегодня назначен запуск публичного бета-тестирования нового поисковика по Рунету Вебальта. В блоге разработчиков появилась запись, сообщающая о примерно 40 запросах в секунду, обрабатываемых системой в данный момент.
Раздел: Search Engines
Вебдванулизация
Для поисковых машин «Интернет Сочи» и «Вершки Рунета» добавлена функция учёта кликов посетителей по результатам поиска. Эти данные используются при расчёте рейтинга популярности страниц.
Все поисковики вместе
Открылся форум обсуждения всех поисковых движков с открытым исходным кодом: searchengines.o0o.ru. Открыты отдельные разделы для движков Nutch, ASPseek, mnoGoSearch, DataparkSearch и ht://Dig, а также для всех остальных. Есть разделы последних новостей и обсуждения релизов, плюс раздел для англоговорящих посетителей.
Об использовании robots.txt
На данный момент поисковой машиной «Вершки РуНета» собрана информация из файлов robots.txt для 17060 хостов. Всего записей о командах оказалось 49976, или всреднем 2,93 команды у одного хоста. Команду Disallow используют 4454 сайта (26,1%), команду Host -- 1580 (9,26%) и команду Crawl-delay -- всего 37 (0,22%).
Да, надо отметить, что команды Host и Crawl-delay являются расширениями, поддерживаемыми только Яндексом первая, и Yahoo, MSN Search вторая. Возможно, что у какого-то количества сайтов эти команды указаны в отдельных секциях файла robots.txt, предназначенных именно для ботов этих поисковиков.
P.S.: К сведению, User-Agent бота «Вершков РуНета»: DataparkSearch. Бот понимает как стандартные команды в robots.txt, так и расширенные: Host и Crawl-delay.
Квазиметапоисковик
Обнаружил любопытный "поисковик" от Liveinternet.ru. Идея заключается в том, что в результатах поиска показываются сайты, на которые осуществлены переходы по этому запросу с других поисковым машин. Сайты упорядочиваются по общему числу переходов на все страницы сайта по запросам, содержащим искомую фразу. Показывается две популярные в переходах по данному запросу страницы сайта. Естественно, учитываются только переходы на те сайты, на которых установлен счётчик Liveinternet.
Géoportail
Во Франции сегодня запущен géoportail.fr, конкурента сервиса Google Earth. На данный момент, показывается только территория Франции, но с лучшим качеством и более подробно, нежели в Google Earth.
Сравнение поисковых машин “по-сочински”
В этой таблице приведено сравнение поисковых машин на запросах "Сочи" и "Sochi" (как точных фраз).
"Сочи" | "Sochi" | |||
---|---|---|---|---|
страниц | сайтов | страниц | сайтов | |
Яндекс | 6358878 | 3295 | 478076 | 1622 |
Рамблер | 8870080 | 124677 | 628753 | 26317 |
Апорт | 20000 | 4585 | 20000 | 1474 |
43°с.ш.39°в.д. | 122950 | ~4065 | 47240 | ~2146 |
Webalta | ~2681000 | ~229000 | ||
~86700000 | ~2450000 | |||
MSN Search | 1146488 | 358890 | ||
Yahoo! | ~4850000 | ~1060000 |
Лидеры роста: Google и Webalta. Значительное сничение числа находимых документов у Yahoo!. Поисковик A9.com в точности повторяет выдачу MSN Search, поэтому он убран из таблицы.
Циферки
Небольшой эксперимент:
time lynx -mime_header 43N39E: запрос 'sochi'
real 0m1.007s
user 0m0.009s
sys 0m0.001s
time lynx -mime_header Yandex: запрос 'sochi'
real 0m0.213s
user 0m0.000s
sys 0m0.009s
time lynx -mime_header Rambler: запрос 'sochi'
real 0m11.188s
user 0m0.011s
sys 0m0.001s
time lynx -mime_header Nigma: запрос 'sochi'
real 0m5.731s
user 0m0.010s
sys 0m0.001s
time lynx -mime_header Yahoo!: запрос 'sochi'
real 0m12.623s
user 0m0.004s
sys 0m0.007s
time lynx -mime_header MSN Search: запрос 'sochi'
real 0m0.802s
user 0m0.010s
sys 0m0.000s
time lynx -mime_header Google: запрос 'sochi'
real 0m2.087s
user 0m0.010s
sys 0m0.000s
Рамблер, Нигма, Yahoo и Google не сжимают ответ клиенту, даже если клиент поддерживает сжатие, -- как итог время получения ответа клиентом примерно на порядок больше, чем могло бы быть!
Статистика
В статистику поисковых машин sochi.org.ru и 43N 39E добавлен новый параметр -- число проиндексированых сайтов, а если точнее -- число сайто, с которых проиндексирована хотя бы одна страница. Для сочинского сегмента сети интернет это число равно 3286 сайтам. Можно сказать это число сайтов в РуНете предоставляющих информацию о Сочи и его окрестностях.
Также примерно с месяц назад появилась возможность просматривать новые или изменённые документы, бнаруженные поисковой машиной за последние два дня. Кажется я об этом ещё не писал, если кому интересно, то: последние изменения на sochi.org.ru.
Сравнение поисковых машин “по-сочински”
В этой таблице приведено сравнение поисковых машин на запросах "Сочи" и "Sochi" (как точных фраз).
"Сочи" | "Sochi" | |||
---|---|---|---|---|
страниц | сайтов | страниц | сайтов | |
Яндекс | 5538158 | 3180 | 409197 | 1240 |
Рамблер | 7518819 | 110267 | 476629 | 18413 |
Апорт | 20000 | 4558 | 20000 | 1290 |
43°с.ш.39°в.д. | 129940 | ~3990 | 50666 | ~2218 |
Webalta | ~945000 | ~82000 | ||
~20100000 | ~2560000 | |||
MSN Search | 1125009 | 364462 | ||
A9.com | 1125009 | 364462 | ||
Yahoo! | ~6080000 | ~2160000 |
Лидеры роста: Google, Yahoo! и Яндекс. Webalta возобновила свою работу. С прошлого месяца поисковик A9.com официально сменил движок с Google на MSN Search, однако его выдача точно повторяет выдачу MSN Search. Возможно речь идёт не о смене движка, а о простой трансляции результатов MSN Search.