Это мне только кажется, что Яндексу не удалось дать четкого и однозначного определения своей новой директивы для robots.txt Clean-param ?
Первый пример сообщает:
Например, на сайте есть страницы:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_2&book_id=123
www.site.ru/some_dir/get_book.pl?ref=site_3&book_id=123...
робот Яндекса сведет все адреса страницы к одному:
www.site.ru/some_dir/get_book.pl?ref=site_1&book_id=123,
Т.е. сам параметр не убирается, а только используется какое-то его одно значение (как определяется какое именно тоже оставлено за кадром, предположим первое попавшее в базу).
Однако далее идет описание:
Clean-param: s /forum/showthread.php
означает, что будет сбрасываться параметр s у всех url-ов, начинающихся с /forum/showthread.php.
Т.е. под сбрасыванием тут следует понимать вырезание этого параметра и его значения из URL. Т.к. в примерах далее приводится обработка идентификатора сессии:
#для адресов вида: www.site2.ru/index.php?page=1&sort=3a&sid=2564126ebdec3150c2d5d3e1c607e5df www.site2.ru/index.php?page=1&sort=3a&sid=974017dcd170d6f0640bd2ec4a5d76ae #robots.txt будет содержать: User-agent: Yandex Disallow: Clean-param: sid /index.php
А идентификаторы сессий можно спокойно и безболезненно удалять, но вот оставлять их (подразумевая замену всех таких идентификаторов на первый попавший в базу поисковика) далеко не всегда полезно, давольно много систем по истечении срока действия сессии вместо документа по запрашиваемому адресу будут отдавать предупреждение об окончании времени действия сессии.
Так все-таки, как Яндекс обрабатывает директиву Clean-param, "выгрызает" указанные параметры из URL, или все последующие заменяет первым попавшим в базу значением ?
Так все-таки, как Яндекс обрабатывает директиву Clean-param, “выгрызает” указанные параметры из URL?
Решение от Google, Yahoo! и Microsoft и проще и элегантнее: http://www.mattcutts.com/blog/canonical-link-tag/
и
http://googlewebmastercentral.blogspot.com/2009/02/specify-your-canonical.html
Я ваще там никакой закономерности ненашел, то ли дело гугле)
Наоборот - у Яндекса все логично, а у гуглов через...
Почему для изменения вопросов, связанных с индексацией я должен лезть в код приложения? Именно для этого делался robots.txt и sitemap !
Да, отвечаю на вопрос - не выгрызает.
Просто возвращает страницу с первым попавшимся вариантом.
Так что если у вас там сессии - просто их надо немного запрятать.(есть несколько способов)
Через неделю Яндекс снова проиндексирует и забудет про сессии.
В отличие от гугла - этот уже месяц помнит.