Сегодня в закрытое тестирование запущен поисковик Wikia Search. Для всех желающих бета-версия поисковика будет открыта ориентировочно 7 января.
Раздел: Search Engines
“Человеческий” поиск и будущее поиска
Небольшое интерью Мариссы Мэйер о проекте Mahalo.com и о будущем поиска:
Корявый бот
Обнаружил еще одного бота, MJ12bot/v1.0.8, внаглую тянущего запрещенные в robots.txt страницы.
Однако на странице информации о боте Majestic-12 сообщается о появлении фейковых ботов, представляющихся именно так. "Мой" бот работал с адреса 99.253.123.252, отсутсвующего в списке адресов активности фейковых ботов.
Трудность блокировки этого бота заключается в том, что это распределеный и добровольческий проект, т.е. боты могут работать с любого диапазона адресов и так просто по адресу его не заблокируешь. Поэтому лучше редиректить по User-Agent следующим образом (для веб-сервера Apache):
RewriteCond %{HTTP_USER_AGENT} MJ12bot.*
RewriteRule (.*) http://127.0.0.1$1 [L,R=301]
Проекты, проекты
На рабочей встрече европейского мега-проекта Хорус (Chorus), состоявшейся 10 октября в Женеве, Швейцария, прошли презентации различных европейским проектов в области поиска и обработки информации:
Время ответа
Анализатору поисковиков не хватает отчета о среднем времени ответа поисковой машины, -- делая впоряд по 200 запросов к каждому поисковику имеет смысл замерять среднее время ответа (можно вариации: время прилета первого пакета ответа от момента посылки запроса и время прилета последнего пакета).
Помимо седней скорости ответов, по изменениям в этом параметре можно будет отслеживать как "выпадения" датацентров/машин в кластере (по заметному увеличению ответа), так и добавление новых датацентров/машин в кластер (по заметному уменьшению времени ответа).
Цена Grub
Согласно отчету Looksmart, поданному в Комиссию по ценным бумагам, домен grub.org и исходный код проекта Grub обошелся Wikia Inc. в 50 тыс. долларов США.
За ту же сумму был продан и домен zeal.com, на котором ранее располагался каталог Zeal.
Вебальта 3 ?
В обсуждении статьи про Вебальту и её оператор link на ROEM.RU озвучена информация о третьей версии поисковика Вебальта, мол выпустили тестовую версию 2.0, построили новый кластер, прислушались к мнению пользователей, и, изменения столь значительны, что речь идет уже о полноценной новой версии. В частности, оператор link отвалился не из-за высокой нагрузки, как посчитали многие, а именно из-за чехарды с версиями. Обещали вскорости "починить", но не на этой неделе.
Etymolog.Ru
Институт русского языка имени В.В.Виноградова РАН открыл сайт Etymolog.Ru -- образовательно-информационный ресурс по этимологии и истории слов русского языка. На сайте действует
поисковая система по электронным версиям основных этимологических словарей и
научных исследований по этимологии и истории слов русского языка.
Да, поисковик что-то ищет и даже иногда находит, вот только результаты отдает в image/vnd.djvu, -- у меня firefox не находит необходимого плагина для этого типа данных...
Русский CiteSeer
Яндекс проспонсировал создание Электронной библиотеки научных статей на основе технологии CiteSeer.IST.
Answers.com и WordPress — партнеры
Поисковик Answers.com и сервис блогов WordPress заключили партнерское соглашение, по которому все пользователи блоговой платформы WordPress получат инструмент для связывания слов со статей своего блога ссылками на соответсвующие определения и описания в Answers.com.
Пользователи движка WordPress получат аналогичный сервис в виде плагина к этому движку.
Для реализации этой фичи, среди иконок меню создания и редактирования статьи в WordPress появится новая иконка, по которой будет запускаться приложение, автоматически предлагающая ключевые слова для такого связывания. Типичными словами, предлагаемыми к такому связыванию являются имена, технические термини и другие специальные слова, значение которых может быть непонятно давольно-таки широкому кругу читателей. Но само связывание будет проводиться только для тех слов, которые выберет автор статьи в WordPress.
Забавно, примерно уже год, а то и более, я на этом блоге использую аналогичный плагин WPKeys, связывающий такие ключевые слова с другими заметками блога, а также свою модификацию этого плагина для связывания слов с ответами поисковой машины Вершки Рунета. Удивительно, что так долго не появлялись аналогичные плагины для топовых поисковиков, фича же полезная. Да и поисковикам принесла бы больше поисковых запросов и посетителей. Куда эти Яндексы, Рамблеры и Гуглы с Вебальтами смотрять...