Некоторые моменты из интерью ExaleadGuy:
- Вкратце об алгоритме релевантности в Exalead. В общем факторы теже, что и для большинства поисковых машин, и рекомендации общие для всех поисковиков: отсутсвие клоакинга, избегать линкаторов и дорвеев, повышать цитируемость на сайтах своей области деятельности.
- О каталоге dmoz. Dmoz в основном используется для категоризации, нахождение сайта в dmoz является плюсом, хотя и маленькми плюсом.
- Скорость обновления и обнаружения новых страниц. Для разных сайтов скорость обновления разная, существуют алгоритмы, присваивающий больший приоритет сайтам, имеющим больше шансов быть обновлёнными через какое-то время. В целом, скорость обновления на конкурентном уровне с остальными поисковиками.
- Дублирующийся контент. Стараемся не показывать более одной версии.
- Чёрный список сайтов. Существуют алгоритмы отслеживания "мухлежа" с рейтингом. При подозрении сайт не исключается из индекса совсем (это считается слишком сильной мерой), а понижается в рейтинге.
- Как отличаются каталоги от линкаторов. Используются собственные уникальные алгоритмы.
- Скрытые ссылки и текст на страницах. По возможности, стараемся индексировать только контент, видимый пользователю.
- Контент, валидный по W3C. Невалидный контент рискует не быть правильно проиндексированым, но никакого бонуса или пенальти для сайтов по этому критерию нет.
- SandBox или что-то в этом роде. Ничего подобного нет, но новому сайту трудно сразу занять лидирующие позиции в выдаче из-за естестенной инертности Веба.
- Лучший способ обозначить пробел в URL -, _ или +. Для нас эти варианты равнозначны.
- Exalead в цифрах. 50 серверов, 4 млрд. проиндексированых страниц.
- Учёт локализации сервера,его домена, .fr или .com. Чуть-чуть, т.к. эта информация не всегда надёжна.
- Европейский проект поисковика
. Он всё ещё на стадии объединения различных участников.