СоНоты

Clean-param

Это мне только кажется, что Яндексу не удалось дать четкого и однозначного определения своей новой директивы для robots.txt Clean-param ?

Первый пример сообщает:

Например, на сайте есть страницы:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123

...

робот Яндекса сведет все адреса страницы к одному:

www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,

Т.е. сам параметр не убирается, а только используется какое-то его одно значение (как определяется какое именно тоже оставлено за кадром, предположим первое попавшее в базу).

Однако далее идет описание:

Clean-param: s /forum/showthread.php

означает, что будет сбрасываться параметр s у всех url-ов, начинающихся с /forum/showthread.php.

Т.е. под сбрасыванием тут следует понимать вырезание этого параметра и его значения из URL. Т.к. в примерах далее приводится обработка идентификатора сессии:


#для адресов  вида:
www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec3150c2d5d3e1c607e5df
www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6f0640bd2ec4a5d76ae
#robots.txt будет содержать:
User-agent: Yandex
Disallow:
Clean-param: sid /index.php

А идентификаторы сессий можно спокойно и безболезненно удалять, но вот оставлять их (подразумевая замену всех таких идентификаторов на первый попавший в базу поисковика) далеко не всегда полезно, давольно много систем по истечении срока действия сессии вместо документа по запрашиваемому адресу будут отдавать предупреждение об окончании времени действия сессии.

Так все-таки, как Яндекс обрабатывает директиву Clean-param, "выгрызает" указанные параметры из URL, или все последующие заменяет первым попавшим в базу значением ?