Перейти к содержимому

26

Для поисковых машин Вершки Рунета и Интернет Сочи появилась возможность посмотреть, кто ссылается на страницу (из страниц, находящихся в базе поисковика), для этого на странице результатов поиска нужно нажать на ссылку "Кто ссылается" под выбраным результатом поиска. Будут показаны страницы, ссылающиеся на данную и соответствующие тому же поисковому запросу.

Если в URL страницы, показывающей ссылающиеся страницы, обнулить CGI-переменную &q, то можно помотреть все страницы, ссылающиеся на данную.

3

DPKeys -- плагин для WordPress аналогичный плагину WPKeys, только ключевые слова используются для создания ссылок на результаты поиска поисковика чей префикс URL запроса задан в макро DPURLPREFIX macro (см. в код dpkeys.php).

7

Обнаружил, что Яндекс проиндексировал директорию, которую не надо было бы, -- да она не была запрещена в robots.txt, но и прямых ссылок на сайте на неё нет. Ну не суть важно, меняю robots.txt, добавляю в него правило:

Disallow: /templates

Захожу на webmaster.yandex.ru, говорю: удали-ка мне все URL из директории sochi.org.ru/templates/, -- а он мне в ответ: не могу, это не запрещено в вашем robots.txt ! Ну ладно, мы не гордые, попросили удалить все URL из директории sochi.org.ru/templates -- согласился удалить !!!

Вот уж не ожидал такой детсадовской ошибки...

Процитирую www.robotstxt.org:

Disallow
The value of this field specifies a partial URL that is not to be visited. This can be a full path, or a partial path; any URL that starts with this value will not be retrieved. For example, Disallow: /help disallows both /help.html and /help/index.html, whereas Disallow: /help/ would disallow /help/index.html but allow /help.html.Any empty value, indicates that all URLs can be retrieved. At least one Disallow field needs to be present in a record.

4

A new version of DataparkSearch 4.41 has been released. Changes since previous release are:

  • A small bug in optimisation of corrupted cache database has been fixed.
  • The CharsToEscape command has beed added. Use it to specify the list of characters to escape for $∓(x) search template meta-variables.
  • The Neo PopRank has been slightly modified.
  • Incorrect processing of LocalCharset has been fixed for non-multithread version.
  • exec: virtual scheme has been fixed.
  • An option for install.pl has been added to select the support for extra charsets.
  • "AddURl: URL not found" erroneous warning has been fixed for case when UseCRC32URLId is enabled.
  • A new command "MarkForIndex yes/no" has been added.
  • mod_dpsearch can now be built without SQL-server support for cache mode only version. Use --enable-apachecacheonly switch for configure to enable and cache:// dbtype for DBAddr command in mod_dpsearch related configuration files.
  • The growing of error message has been fixed for mod_dpsearch.
  • A new command "ReplaceVar name value" has been added.
  • The "near" search mode has been fixed.
  • The Summary Extraction Algorithm (SEA) has been modified for better performance.

Выпущена новая версия поискового движка DataparkSearch 4.41. Основные отличия от предыдущей, 4.40.1, версии:

  • Исправлена небольшая ошибка отимизации битой базы cache mode.
  • Добавлена команда CharsToEscape. Используйте её для указания списка символов подлежащих HTML-кодированию в $&(x) мета-переменных поискового шаблона.
    Немного модифицирован алгоритм Neo расчёта рейтинга популярности.
  • Исправлена обработка LocalCharset для версии без поддержки нитей.
  • Исправлена виртуальная схема exec:
  • В скрипт install.pl добавлена опция включения поддержки дополнительных кодировок.
  • Исправлено ошибочное предупреждение "AddURl: URL not found" в случае использования команды "UseCRC32URLId yes".
  • Добавлена новая команда "MarkForIndex yes/no".
  • mod_dpsearch может быть собран без поддержки SQL-сервера, только для способа хранения cache. Используйте ключ --enable-apachecacheonly для configure чтобы включить и dbtype cache:// для команд DBAddr в файла конфигрурации для mod_dpsearch.
  • Исправлен рост сообщения об ошибке в mod_dpsearch.
  • Добавлена новая команда "ReplaceVar name value".
  • Исправлен режим поиска "near".
  • Изменен Алгоритм Построения Рефератов (SEA) для лучшей производительности.

2

Выпущена новая версия поискового движка DataparkSearch 4.40.1. Основыне отличия от предыдущей, 4.38, версии:

  • Переписана проверка базы cached для лучшей производительности. При апгрейде необходимо создать таблицу cachedchk используя команду indexer -Ecreate.
  • Исправлен разбор query string для случая, когда используются оба CGI и SGML кодирования символов.
  • Добавлена поддерджка ключиков HTTP. Используйте команду "Cookies yes" чтобы вкллючить. Эту команду можно указывать для каждой команды Server/Realm в отдельности.
  • Добавлена команда "URLInfoSQL no", выключающая сохранение информации об URL в SQL-базе для способа хранения dbmode.
  • Исправлено сохранение в базе stored документов, сжимаемых при передаче.
  • Переменная поискового шаблона может быть выведена в любой кодировке, например: $(q:UTF-8).
  • Добавлена поддержка кодировки GB18030.
  • Значение hops может учитываться при расчёте рейтинга популярности Neo. Используйте ключ --enable-pophops для configure чтобы включить.
  • При паузе по команде Crawler-delay из robots.txt остальные индексирующие нити теперь не блокируются.
  • Исправлен возможный трап indexer при использовании зеркалирования.
  • Испрален трап демонов при запуске из-под крона или при старте системы.
  • Добавлена команда ColdVar. Используйте её для выключения блокировок файлов в поисковом окружении только для чтения. (только для способа хранения cache).
  • Исправлена возможная утечка памяти при включённой поддержке aspell.
  • Способ расчёта релеватности Ultra модифицирован для лучшей производительности.
  • Исправлена компиляция без zlib.

Новую версию поискового движка также можно установить из портов FreeBSD (www/dpsearch).

4

Только что обнаружил, что если в RSS 2.0 фиде URL статьи закодирован так:

< [CDATA[http://www.server.ext/file?p1=v1&p2=v2]]>

то на Яндекс.Ленте этот URL уже будет выдан как

http://www.server.ext/file?p1=v1&#38;p2=v2

что точно является неправильным. Конечно, в спецификации RSS 2.0 нет явного указания как имеено должны кодироваться такие URL, но "догадаться", что подобный урл не нужно эскейпить не так уж и трудно...

6

На сайте будущего поисковика Megaglobe, запуск которого ожидается в июне этого года, появилась форма добавления URL в базу индексатора.

3

Сайт Secrets2Moteurs провёл опрос пользователей поисковиков, чтобы определить, из-за чего кликают на ту или иную ссылку в выдаче, какой фактор в первую очередь влияет на выбор:

  1. 30.26% -- Описание
  2. 20.72% -- Заголовок
  3. 18.75% -- Всё вместе
  4. 9.87% -- Позиция сайта на странице выдачи
  5. 6.91% -- Известность имени (или торговой марки), ассоциируемого с сайтом
  6. 6.91% -- На удачу
  7. 4.61% -- URL страницы
  8. 1.97% -- это коммерческая ссылка

Хм, интересно, а ещё есть желающие покупать коммерческие ссылки при таком раскладе ?

Некоторые моменты из интерью ExaleadGuy:

  • Вкратце об алгоритме релевантности в Exalead. В общем факторы теже, что и для большинства поисковых машин, и рекомендации общие для всех поисковиков: отсутсвие клоакинга, избегать линкаторов и дорвеев, повышать цитируемость на сайтах своей области деятельности.
  • О каталоге dmoz. Dmoz в основном используется для категоризации, нахождение сайта в dmoz является плюсом, хотя и маленькми плюсом.
  • Скорость обновления и обнаружения новых страниц. Для разных сайтов скорость обновления разная, существуют алгоритмы, присваивающий больший приоритет сайтам, имеющим больше шансов быть обновлёнными через какое-то время. В целом, скорость обновления на конкурентном уровне с остальными поисковиками.
  • Дублирующийся контент. Стараемся не показывать более одной версии.
  • Чёрный список сайтов. Существуют алгоритмы отслеживания "мухлежа" с рейтингом. При подозрении сайт не исключается из индекса совсем (это считается слишком сильной мерой), а понижается в рейтинге.
  • Как отличаются каталоги от линкаторов. Используются собственные уникальные алгоритмы.
  • Скрытые ссылки и текст на страницах. По возможности, стараемся индексировать только контент, видимый пользователю.
  • Контент, валидный по W3C. Невалидный контент рискует не быть правильно проиндексированым, но никакого бонуса или пенальти для сайтов по этому критерию нет.
  • SandBox или что-то в этом роде. Ничего подобного нет, но новому сайту трудно сразу занять лидирующие позиции в выдаче из-за естестенной инертности Веба.
  • Лучший способ обозначить пробел в URL -, _ или +. Для нас эти варианты равнозначны.
  • Exalead в цифрах. 50 серверов, 4 млрд. проиндексированых страниц.
  • Учёт локализации сервера,его домена, .fr или .com. Чуть-чуть, т.к. эта информация не всегда надёжна.
  • Европейский проект поисковика . Он всё ещё на стадии объединения различных участников.