Clean-param

Это мне только кажется, что Яндексу не удалось дать четкого и однозначного определения своей новой директивы для robots.txt Clean-param ?

Первый пример сообщает:

Например, на сайте есть страницы:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123

...

робот Яндекса сведет все адреса страницы к одному:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,

Т.е. сам параметр не убирается, а только используется какое-то его одно значение (как определяется какое именно тоже оставлено за кадром, предположим первое попавшее в базу).

Однако далее идет описание:

Clean-param: s /forum/showthread.php

означает, что будет сбрасываться параметр s у всех url-ов, начинающихся с /forum/showthread.php.

Т.е. под сбрасыванием тут следует понимать вырезание этого параметра и его значения из URL. Т.к. в примерах далее приводится обработка идентификатора сессии:


#для адресов  вида:
www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec3150c2d5d3e1c607e5df
www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6f0640bd2ec4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php

А идентификаторы сессий можно спокойно и безболезненно удалять, но вот оставлять их (подразумевая замену всех таких идентификаторов на первый попавший в базу поисковика) далеко не всегда полезно, давольно много систем по истечении срока действия сессии вместо документа по запрашиваемому адресу будут отдавать предупреждение об окончании времени действия сессии.

Так все-таки, как Яндекс обрабатывает директиву Clean-param, "выгрызает" указанные параметры из URL, или все последующие заменяет первым попавшим в базу значением ?

Clean-param: 9 комментариев

  1. Диана

    Так все-таки, как Яндекс обрабатывает директиву Clean-param, “выгрызает” указанные параметры из URL?

  2. Андрей

    Наоборот - у Яндекса все логично, а у гуглов через...
    Почему для изменения вопросов, связанных с индексацией я должен лезть в код приложения? Именно для этого делался robots.txt и sitemap !

  3. Андрей

    Да, отвечаю на вопрос - не выгрызает.

    Просто возвращает страницу с первым попавшимся вариантом.
    Так что если у вас там сессии - просто их надо немного запрятать.(есть несколько способов)

    Через неделю Яндекс снова проиндексирует и забудет про сессии.
    В отличие от гугла - этот уже месяц помнит.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *