СоНоты

Googlebot и robots.txt

Похоже поддержку символов-джокеров (wildcard caharcters) для расширения шаблонов в robots.txt для Googlebot писали люди, слабо знакомые с этими самыми символами-джокерами.

Если посмотреть пример использования в "Справочнике вебмастера" от Google:


User-agent: *
Allow: /*?$
Disallow: /*?

Во-первых, тут Google взял на себя смелость расширить стандарт robots.txt для других ботов (секция с "User-agent: *" относится ко всем ботам, а не только к Googlebot), который таки не поддерживает никакие символы-джокеры и другие боты вовсе не обязаны их соблюдать. Но увы, этому примеру последовали многие вебмастера, даже не удосужившись проверить то, что им "подсказал" Google.

Во-вторых, из комментариев к примерам использования следует, что от символе-джокере '?' (question mark), обозначающем любой символ, совершенно забыли. Здесь Google его использует как обычный символ. Это начисто перечеркивает использование уже написанных функций проверки строки по шаблону с символами-джокерами - изобретен новый велосипед (т.е. новый формат шаблонов с символами-джокерами).

В-третьих, добавили символ-джокер '$', очевидно, притянутый сюда из регулярных выражений (regular expression) и означающий конец строки - еще одна педаль к новому велосипеду...