Это мне только кажется, что Яндексу не удалось дать четкого и однозначного определения своей новой директивы для robots.txt Clean-param ?
Первый пример сообщает:
Например, на сайте есть страницы:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123...
робот Яндекса сведет все адреса страницы к одному:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,
Т.е. сам параметр не убирается, а только используется какое-то его одно значение (как определяется какое именно тоже оставлено за кадром, предположим первое попавшее в базу).
Однако далее идет описание:
Clean-param: s /forum/showthread.php
означает, что будет сбрасываться параметр s у всех url-ов, начинающихся с /forum/showthread.php.
Т.е. под сбрасыванием тут следует понимать вырезание этого параметра и его значения из URL. Т.к. в примерах далее приводится обработка идентификатора сессии:
#для адресов вида: www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec3150c2d5d3e1c607e5df www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6f0640bd2ec4a5d76ae #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: sid /index.php
А идентификаторы сессий можно спокойно и безболезненно удалять, но вот оставлять их (подразумевая замену всех таких идентификаторов на первый попавший в базу поисковика) далеко не всегда полезно, давольно много систем по истечении срока действия сессии вместо документа по запрашиваемому адресу будут отдавать предупреждение об окончании времени действия сессии.
Так все-таки, как Яндекс обрабатывает директиву Clean-param, "выгрызает" указанные параметры из URL, или все последующие заменяет первым попавшим в базу значением ?