Перейти к содержимому

4

На днях Ашманов протрубил на Роеме про тотального неудачника Google. В принципе, один из гуглеров правильно назвал все это

... практически все возможные факты перевраны, а все выводы примитивны и совершенно off mark.

...читать далее "Google и корпоративный поиск"

11

Джеф Дин (Jeff Dean) дал на WSDM 2009 описание основных моментов развития поисковика Google.

Изменения масштабов 1999-2009

  • 100-кратное увеличение числа документов в индексе;
  • 10000-кратное увеличение числа запросов;
  • 10000-кратное ускорение обновления всего индекса;
  • средние время исполнения запроса уменьшилось в 5 раз, с менее 1 сек. до менее 0,2 сек.

Система была спроектирована на 10-кратный рост числа документов и переписана на 100-кратный рост.
...читать далее "Заметки о поисковике Google"

4

Примерно с пол-года назад на страницах результатов поиска в поисковиках Интернет Сочи и Вершки Рунета появились вспомогательные поиски (в левой колонке). Сначала это были результаты поиска по тому же запросу, только отсортированные по-другому. Затем их заметили результаты поиска видео (для обоих поисковиков) и поиска по телефонному справочнику (для Интернета Сочи).

И вот компания Google выпускает Related Web Results, фичу для Google Mini и Google Search Appliance, позволяющая интегрировать на страницы результатов поиска результаты поиска по тому же запросу, получаемые в Custom Search Business Edition.

1

В Google Mini серии MID обнаружена XSS-уязвимость. Команда Google Enterprise только что выпустила патч, доступный в разделе поддержки пользователей (требуется логин и пароль покупателя для доступа).

Если вы сомневаетесь, какой серии ваш Google Mini, на той странице есть специальная проверка. Также можно проверить по User-Agent, используемом при выкачке документов, он содержит подстроку 'MID' для этой серии Google Mini.

Серия M2, а также Google Search Appliance, не подвержены этой уязвимости.

Если ваш Google Mini этой серии и доступен публике, вам необходимо как можно быстрее применить этот патч. Однако, если вы используете XML-выдачу Google Mini, пропуская её через дополнительные обработчики перед отдачей клиенту, применение этого патча -- на ваше усмотрение.

//GSA Developer

Google начала поставку и поддержку пользователей корпоративного поиска Google Search Appliance and Google Mini в Мексике, через сеть консалтинговых компаний, таких как GT Consulting, MAR Consultoría, BearingPoint, Deloitte Consulting, Arteria Comunicaciones, Mobile Data, ParaByte, CasaMex и DELL.

Компания давно получала запросы на эти услуги от мексиканских пользователей, и даже обрела первого клиента за несколько дней до официального запуска сервиса.

//Google Enterprise blog

  Google Mini DataparkSearch
Лицензия Коммерческая, исходники закрыты GPL, открытый исходный текст
Число индексируемых документов и цена
  • до 50,000 за $1,995
  • до 100,000 за 2,995
  • до 200,000 за $5,995
  • до 300,000 за $8,995
до нескольких десятков миллионов, в зависимости от используемого железа. Бесплатное ПО.
Индексируемые форматы файлов 220 различных форматов файлов, включая HTML, PDF и документы Microsoft Office. Простой текст, HTML, XML, MP3, GIF, и любой другой через внешние парсеры.
Языки 28 языков 25 языковых групп, может разбивать на слова фразы традиционного письма на китайском, японском, корейском и тайском языках.
Доступ к файлам через HTTP, HTTPS, сетевые фаловые системы. HTTP, HTTPS, FTP, NNTP, HTTP Proxy, локальную файловую систему, htdb:// схема для индексирования SQL баз.
Доступ к защищенному контенту через HTTP Basic, NTLM v1 и v2, LDAP HTTP Basic
Коллекции документов Да Да, каждая коллекция может быть поделена на секции (тэги и категории).
Интеграция результатов поиска в дизайн сайта пользовательская таблица стилей XSLT, экспорт результатов в XML собственный язык шаблона страницы выдачи в любом тестовом формате (включая HTML,RSS,XML).
Синонимы Да Да
Вывод аттрибутов результатов поиска мета тэги мета тэги, заданные аттрибуты HTML, заданные XML тэги, regex-вырезки из текста (все перечисленные называются секциями)
Фильтрация результатов по мэта тэгам Да Да, + по любой секции или комбинации секций.
Задание различных весов мета тэгам/секциям Нет Да
Интеграция с Google Desktop и Google Toolbar for Enterprise Да Нет
Исключение страниц из поискового индекса Да Да
Спелчекер самообучаемый использует aspell
Кэшированные версии документов Да Да
Поиск в заданном числовом интервале Да Нет
Поиск в заданном интервале дат Да Да
Сортировка результатов по Релевантности, Дате Релевантности, Дате, Популярности, Важности и по всем этим в обратном порядке и любой комбинации.
Отчёты
  • Общее число запросов и уникальных запросов
  • Число запросов в день
  • Средние числа запросов по часам суток
  • Топ 100 ключевых слов и запросов
Нет отчётов. Для каждого запроса могут быть записаны все параметры поиска для последующей обработки.
Автоматическое создание Google sitemap Да Нет
OneBox for Enterprise Да Нет
Поддержка пользователей Сайт поддержки; поддержка по email; гарантированная замена отказавшего оборудования Форум на сайте проекта.
Автоматическое реферирование документов Нет Да, Summary Extraction Algorithm
Согласование содержимого по HTTP для заданные языков Нет Да
Ссылочное ранжирование Нет Да, алгоритмы Neo PopRank и Goo PopRank.

//Google Mini features, Google Mini Administrator features, DataparkSearch.

Обнаружен новый (для меня) блог: GSA Developer, Google Search Appliance and Google Mini development, -- заметки пользователя GSA и Google Mini.

7

На anandtech.com исследовали внутренности Google mini: обычный 1U-сервер, из необычного -- встроеным CD-ROMом нельзя воспользоваться не разобрав корпус; производитель сервера и материнки: Gigabyte; два процессора Pentium III-S 1,26 ГГц; 2 Гб SDRAM (4x256); 1 HDD Seagate Barracuda 120 Гб; AMI BIOS.

Перевод на русский этого исследования можно прочитать здесь: mobbit.info. Единственно, что перевод заканчивается на описании железа, не захватив описания конфигурирования Google mini.