google — Страница 21

Машина времени — уже скоро ? 3

Максим Захаров19 января 20073 комментария

Люди с древнейших времён мечтали о полёте, ако птицы... И вот в начале 20 века человек полетел, немного не так, как мечтали, внутри "желзных птиц", ака самолётов.

Уже пару веков (а может и больше), человек мечтает о машине времени. Конец 20 века подарил надежду на реализацию и этой мечты -- виртуальные кибер-миры.

В данный момент разворачивается битва между Google и Microsoft за виртуальную модель Земли. Да, в данный момент всё ориентировано на поиск информации о каких-либо объектах на поверхности в данный конкретный момент времени. Но имея виртуальную Землю и проиндексированные архивы (вот где еще копать и копать :), можно давольно таки подробно реконструировать некоторые фрагменты поверхности Земли в прошлом, например поля знаменитых сражений, или распространение волны ценами в Азии в декабре 2004, или единственное плавание "Титаника", и т.д. В принципе можно "открутить" назад всю историю Земли, до момента зарождения Солнца.

UPDATE: Не говоря уже о возможных онлайновых играх над виртульной Землей, в антураже, наиболее приближенном к историческому.

Многокритериальный поиск 5

Максим Захаров15 января 20075 комментариев

Газета New York Times опубликовала заметку Google Answer to Filling Jobs Is an Algorithm (также доступная здесь), рассказывающую о том, как Google старается не потонуть в примерно 100000 резюме, подаваемых ежемесячно на вакантные позиции. Помимо расширения онлайновой формы заявления, теперь запрашивающей больше информации о кандидате, также сообщается о введении специальных алгоритмов, оценивающих каждое заявление на вакансию и присваивающих каждому такому заявлению некий коэффициент соответствия от 0 до 100.

Сведя каждое заявление к абстрактному числу (своего рода ранжирующая функция), несложно подключить обычный поиск, который у Gogle уже есть. Тем самым Google несложно будет сделать отдельные поисковики по всем вакансиям в мире, а также по аналогичным сервисам: анкетам сайтов знакомств, покупки/продажи/аренды недвижимости и т.п., где требуется многокритериальный поиск... Возможно, нечно подобное и появится скоро, эти ниши явно денежные 🙂

//3form (см. также упоминание о Google Online Assessments, - Google готовит нечто похожее на Brainbench ?).

На 2007 7

Максим Захаров30 декабря 20067 комментариев

Следуя моде давать прогнозы на грядущий год, выскажу предположение, что если не в следующем, то скоро появится новый стандарт сайта компании, где вместо уже превычной заглавной страницы с иерархическим меню самого различного покроя, появится google-like интерфейс -- заглавная страница будет содержать "визитку" компании плюс строку ввода поисковика по всему объёму предоставлемой информации. Кстати, компания Google уже выпустила пакет Google Apps for Domain для содания своего "google.com", оталось интегрировать это с Google Appliance или Google Mini, плюс желательно возродить Google Answers в локальном варианте (типа Google Answers Mini) и прототип CMS нового поколения будет готов.

Крупные компании уже давно могут предложить гораздо больше информации потенциальному клиенту о своих товарах и услугах, нежели можно удобно эти данные расположить в иерархических меню, да ещё так, чтобы пользователь разобрался со структурой с первого захода. А так будет всем "интуитивно понятный" интерфейс поисковой строки.

Конечно, строка поиска стандартно присутсвует почти на каждом сайте, но зачатую на отшибе в правом вернем углу и зачастую чисто наминально, ибо возможности поиска, "зашитые" в некоторые CMS весьма куцые. А будет наоборот -- строка поиска будет в центре внимания и самым крупным объектом на странице, а меню станет вспомогательным инструментом и будет меняться в зависимости от того, что ищет пользователь, позволяя быстрее ориентироваться в полученных результатах или уточнять запросы в один/два клика.

Wikiasaria — комедия ошибок 16

Максим Захаров26 декабря 200616 комментариев

Волна публикаций, второй день бродящая в инете, о готовящемся "убийце" поисковиков Google и Yahoo!, проекте Wikiasaria, созданом Джимми Уэльсом (Jimmy Wales) основателем Википедии, скорее всего похожа на комедию ошибок. Вот что пишем сам Джимми в девелоперском листе (открывшемся, кстати, всего пару дней назад):

The press coverage this weekend has been a comedy of errors. Wikiasari was not and is not the intended name of this project... the London Times picked that off an old wiki page from back in the day when I was working on the old codebase and we had a naming contest for it. Nice name, though, so we might as well use it for the codename of the software. 🙂

And then TechCrunch ran a screenshot of something completely unrelated, thus unfortunately perhaps leading people to believe that something is already built about about to be unveiled. No, the point of the project is to build something, not to unveil something which has already been built. 🙂

Иначе говоря, проект такого поисковика только-только стартовал, ещё не имеет собственного имени, даже еще не выбран движок поисковика, на базе которого будут строить (возможно это будут старые наработки Джимми, возможно Nutch + Lucene, возможно что-то еще, предлагаемое в девелоперсокм листе).

Google: секретное предприятие на юге 3

Максим Захаров23 декабря 20063 комментария

Компания Google планирует инвестировать 750 млн. долларов в нечно вроде серверного парка в Южной Каролине, если верить местной прессе < Южной Каролины, конечно >. Дочерняя компания, по видимому связанная с крупнейшим поисковиком, только что приобрела 520 акров рядом с Чарлестоном (Charleston). Google не разглашает своих планов, однако местный муниципалитет огласил размеры планируемых инвестиций, а также факт интереса покупателя к техническим возможностям обеспечения электричеством и водоснабжением.

//Valleywag

Немцы выходят из Quaero

Максим Захаров19 декабря 2006Добавить комментарий

Хартмут Шауерте (Hartmut Schauerte), министр экономики Германии, на ИТ-саммите в Постдаме заявил о планах правительства Германии выйти из совместного с Францией проекта создания общеевропейского поисковика Quaero и создании национального проекта Theseus, направленого на создание немецкого поисковика.

Причиной разногласий отмечают стремление французской стороны к созданию классического поисковика, в то время как немецкая сторона не хотела бы вступать в прямую конкуренцию с Google и другими лидерами этого рынка, а желала сосредоточить усилия на развитии семантического интернета.

Впрочем, немецкое правительство не будет призывать покинуть проект Quaero других его участников из Германии.

//Multilingual Search

Кластеризация результатов Google 6

Максим Захаров17 декабря 20066 комментариев

Оказывается, если в Google (англоязычном портале Google.com, для русской версии это не работает) ввести запрос, состоящий из названия какого-нибудь лекарства, то поисковик предложит уточнить запрос, разделив документы на кластеры:

Мелкогадящие боты 15

Максим Захаров16 декабря 200613 июля 201515 комментариев

Наблюдал по логам, почему эффективность HTTP кэша получается не очень. Оказалось весьма просто и неожиданно мелкогадко: кто у нас жрёт страницы немерянно, -- правильно, боты поисковиков. Получается такая фигня: боты Google, Yahoo, Ask, WebAlta поддерживают получение сжатого контента, боты Яндекса, Рамблера и MSN -- не поддерживают, и вот ночью набегает стая ботов первой группы, забивает кэш сжатыми копиями страниц, прибегает свора ботов второй группы, тянет тоже самое, кэш естественно не работает, бо не умеет расжимать на лету, перетягивает тот же контент, но уже в несжатом виде...

Почему это мелкогадко -- прикрутить к краулеру поддержку сжатия контента при передаче это задача для студиозусов (решается просто и быстро, благо библиотек навало, да и инфы много, ка кэто должно работать). Получается, что у Яндекса, Рамблера и MSN либо соответствующие менеджеры мышей не ловят, либо их инфраструктура уже почти на пределе и не позволяет тянуть небольной overhead разжатия вытянутого контента...

По любому выходит, что WebAlta уже уделала и Яндекс и Рамблер, по крайней мере в технической реализации поддержки протокола HTTP. 🙂

IBM OmniFind Yahoo! Edition

Максим Захаров13 декабря 2006Добавить комментарий

Компании IBM и Yahoo! объединили усилия чтобы составить конкуренцию Google на рынке корпоративного поиска. Объявлено о выпуске IBM OmniFind Yahoo! Edition, поисковика, построенного на базе опенсоурсного Lucene.

Основные технические характеристики: поддерживает до 500 тыс. документов, позволяет искать одновременнно по корпоративным документам и по интернету из единого интерфейса (само собой интегрирован с поисковиком Yahoo!), поддерживаются свыше 200 типов файлов и свыше 30 языков, проверка орфографии слов поискового запроса, настраиваемые списки синонимов и спонсорских ссылок.

Поддерживаемые ОС: Linux Red Hat Enterprise и SUSE Enterprise, Windows 2003 Server SP1/XP. Поддерживаемые броузеры: Microsoft IE6, Mozilla Firefox 1.5.

Рекомендуемое железо: 2 процессора от 3 ГГц, памяти 2 Гб, 250 Гб дисков в зеркале.

Компания IBM будет предоставлять платную круглосуточную поддержку, если пользователю она понадобится.

//Search Engine Land

Да уж, на таком железе DataparkSearch будет спокойно шуршать с 5-10 млн. документов. 🙂

Freshway/rate 9

Максим Захаров13 декабря 20069 комментариев

На searchengines.ru обнаружил приглашение на «Независимый рейтинг поисковых истем». Судя по всему независимость базируется на его открытости, каждый может предложить как свой поисковик, так и тестовый вопрос(ы). На данный момент рейтинг выглядит так: Google, Netscape Search, AOL Search, Яндекс, MSN, Апорт!, WiseNut, HotBot, AllTheWeb, Yahoo!, Lycos, Ask, Rambler, Punto, Russia on the Net, Поиск@Mail.ru. Если неважность позиций рунетовских поисковиков еще можно объяснить весьма куцыми возможностями поиска по англоязычному вебу, то низкие позиции Yahoo! и Ask непонятны, особенно Yahoo!, уже несколько лет имеющего русскоязычную версию.

Кроме рейтинга по тестовым запросам, также составляется рейтинг по индексу "вылизанности" заглавной страницы поисковика (так называемый freshINDEX), тут позиции занимаются немного в другом порядке. Но Google и здесь в лидерах.

Кстати, предложил поисковик «Вершки Рунета», пока не добавили...