На днях Ашманов протрубил на Роеме про тотального неудачника Google. В принципе, один из гуглеров правильно назвал все это
... практически все возможные факты перевраны, а все выводы примитивны и совершенно off mark.
Поисковые машины, Сидней и обо всём по-немногу
На днях Ашманов протрубил на Роеме про тотального неудачника Google. В принципе, один из гуглеров правильно назвал все это
... практически все возможные факты перевраны, а все выводы примитивны и совершенно off mark.
Джеф Дин (Jeff Dean) дал на WSDM 2009 описание основных моментов развития поисковика Google.
Изменения масштабов 1999-2009
Система была спроектирована на 10-кратный рост числа документов и переписана на 100-кратный рост.
...читать далее "Заметки о поисковике Google"
Примерно с пол-года назад на страницах результатов поиска в поисковиках Интернет Сочи и Вершки Рунета появились вспомогательные поиски (в левой колонке). Сначала это были результаты поиска по тому же запросу, только отсортированные по-другому. Затем их заметили результаты поиска видео (для обоих поисковиков) и поиска по телефонному справочнику (для Интернета Сочи).
И вот компания Google выпускает Related Web Results, фичу для Google Mini и Google Search Appliance, позволяющая интегрировать на страницы результатов поиска результаты поиска по тому же запросу, получаемые в Custom Search Business Edition.
В Google Mini серии MID обнаружена XSS-уязвимость. Команда Google Enterprise только что выпустила патч, доступный в разделе поддержки пользователей (требуется логин и пароль покупателя для доступа).
Если вы сомневаетесь, какой серии ваш Google Mini, на той странице есть специальная проверка. Также можно проверить по User-Agent, используемом при выкачке документов, он содержит подстроку 'MID' для этой серии Google Mini.
Серия M2, а также Google Search Appliance, не подвержены этой уязвимости.
Если ваш Google Mini этой серии и доступен публике, вам необходимо как можно быстрее применить этот патч. Однако, если вы используете XML-выдачу Google Mini, пропуская её через дополнительные обработчики перед отдачей клиенту, применение этого патча -- на ваше усмотрение.
Google начала поставку и поддержку пользователей корпоративного поиска Google Search Appliance and Google Mini в Мексике, через сеть консалтинговых компаний, таких как GT Consulting, MAR Consultoría, BearingPoint, Deloitte Consulting, Arteria Comunicaciones, Mobile Data, ParaByte, CasaMex и DELL.
Компания давно получала запросы на эти услуги от мексиканских пользователей, и даже обрела первого клиента за несколько дней до официального запуска сервиса.
Google Mini | DataparkSearch | |
---|---|---|
Лицензия | Коммерческая, исходники закрыты | GPL, открытый исходный текст |
Число индексируемых документов и цена |
|
до нескольких десятков миллионов, в зависимости от используемого железа. Бесплатное ПО. |
Индексируемые форматы файлов | 220 различных форматов файлов, включая HTML, PDF и документы Microsoft Office. | Простой текст, HTML, XML, MP3, GIF, и любой другой через внешние парсеры. |
Языки | 28 языков | 25 языковых групп, может разбивать на слова фразы традиционного письма на китайском, японском, корейском и тайском языках. |
Доступ к файлам через | HTTP, HTTPS, сетевые фаловые системы. | HTTP, HTTPS, FTP, NNTP, HTTP Proxy, локальную файловую систему, htdb:// схема для индексирования SQL баз. |
Доступ к защищенному контенту через | HTTP Basic, NTLM v1 и v2, LDAP | HTTP Basic |
Коллекции документов | Да | Да, каждая коллекция может быть поделена на секции (тэги и категории). |
Интеграция результатов поиска в дизайн сайта | пользовательская таблица стилей XSLT, экспорт результатов в XML | собственный язык шаблона страницы выдачи в любом тестовом формате (включая HTML,RSS,XML). |
Синонимы | Да | Да |
Вывод аттрибутов результатов поиска | мета тэги | мета тэги, заданные аттрибуты HTML, заданные XML тэги, regex-вырезки из текста (все перечисленные называются секциями) |
Фильтрация результатов по мэта тэгам | Да | Да, + по любой секции или комбинации секций. |
Задание различных весов мета тэгам/секциям | Нет | Да |
Интеграция с Google Desktop и Google Toolbar for Enterprise | Да | Нет |
Исключение страниц из поискового индекса | Да | Да |
Спелчекер | самообучаемый | использует aspell |
Кэшированные версии документов | Да | Да |
Поиск в заданном числовом интервале | Да | Нет |
Поиск в заданном интервале дат | Да | Да |
Сортировка результатов по | Релевантности, Дате | Релевантности, Дате, Популярности, Важности и по всем этим в обратном порядке и любой комбинации. |
Отчёты |
|
Нет отчётов. Для каждого запроса могут быть записаны все параметры поиска для последующей обработки. |
Автоматическое создание Google sitemap | Да | Нет |
OneBox for Enterprise | Да | Нет |
Поддержка пользователей | Сайт поддержки; поддержка по email; гарантированная замена отказавшего оборудования | Форум на сайте проекта. |
Автоматическое реферирование документов | Нет | Да, Summary Extraction Algorithm |
Согласование содержимого по HTTP для заданные языков | Нет | Да |
Ссылочное ранжирование | Нет | Да, алгоритмы Neo PopRank и Goo PopRank. |
//Google Mini features, Google Mini Administrator features, DataparkSearch.
Обнаружен новый (для меня) блог: GSA Developer, Google Search Appliance and Google Mini development, -- заметки пользователя GSA и Google Mini.
На anandtech.com исследовали внутренности Google mini: обычный 1U-сервер, из необычного -- встроеным CD-ROMом нельзя воспользоваться не разобрав корпус; производитель сервера и материнки: Gigabyte; два процессора Pentium III-S 1,26 ГГц; 2 Гб SDRAM (4x256); 1 HDD Seagate Barracuda 120 Гб; AMI BIOS.
Перевод на русский этого исследования можно прочитать здесь: mobbit.info. Единственно, что перевод заканчивается на описании железа, не захватив описания конфигурирования Google mini.