nutch — СоНоты

Wikia Search 26

Максим Захаров7 января 200822 мая 201026 комментариев

Сегодня с 11:01 по Москве для всех желающих открыта альфа-версия поисковика Wikia Search, поисковика, наделавшего много шуму в прошлом году как один из "убийц" Google.

В качестве паука (crawler) используется Grub, в качестве индексатора -- Nutch.

Рядом с каждым результатом в выдаче, правее суммарного веса результата, при наведении в эту оласть курсора появляется "голомовалка" за результат, можно выставить от 1 до 5 звездочек. Однако при выставлении оценки появляется сообщение, что это пока не реализовано.

Кстати, на сами веса результатов полезно понажимать -- будет показан вывод этого веса на основании свойств документа. Яндексу явно далеко до такой открытости перед оптимизаторами. 🙂 Однако с релевантностью не очень, например, по запросу "russia" на первом месте показывается ссылка http://www.russia-emb.jp/ со снипетом на японском.

Интересно реализовано "листание" страниц результатов. Листание в кавычках потому, что при клике на ссылку следующих резултатов, они показываются ниже на тойже странице. Т.е. страница выдачи одна, но она растет по заросу пользователя. Весьма удобно, можно потом искать поиском, встроенном в броузере среди всех резульаттов, уже показаных ранее.

К сожалению, при вводе запроса на кириллице получаем мусор -- где-то бъется одировка. По-моему, это стандартная болезнь Nutch, у него тоже русский без напильника не прикручивается.

Wikiasaria — комедия ошибок 16

Максим Захаров26 декабря 200616 комментариев

Волна публикаций, второй день бродящая в инете, о готовящемся "убийце" поисковиков Google и Yahoo!, проекте Wikiasaria, созданом Джимми Уэльсом (Jimmy Wales) основателем Википедии, скорее всего похожа на комедию ошибок. Вот что пишем сам Джимми в девелоперском листе (открывшемся, кстати, всего пару дней назад):

The press coverage this weekend has been a comedy of errors. Wikiasari was not and is not the intended name of this project... the London Times picked that off an old wiki page from back in the day when I was working on the old codebase and we had a naming contest for it. Nice name, though, so we might as well use it for the codename of the software. 🙂

And then TechCrunch ran a screenshot of something completely unrelated, thus unfortunately perhaps leading people to believe that something is already built about about to be unveiled. No, the point of the project is to build something, not to unveil something which has already been built. 🙂

Иначе говоря, проект такого поисковика только-только стартовал, ещё не имеет собственного имени, даже еще не выбран движок поисковика, на базе которого будут строить (возможно это будут старые наработки Джимми, возможно Nutch + Lucene, возможно что-то еще, предлагаемое в девелоперсокм листе).

Hadoop 4

Максим Захаров4 февраля 20064 комментария

Проект Hadoop выделен в отдельный подпроект проекта Lucene из другого подпроекта Nutch. Hadoop состоит из Hadoop Distributed Filesystem (HDFS), распределённой файловой системы, ранее называвшейся Nutch Distributed Filesystem (NDFS), а также реализации MapReduce, технологии работы с большими наборами данных, разработанной компанией Google.