На Official Google Webmaster Central Blog появилось сообщение о том, что бот Гугла приступил к индексированию глубинного веба:
... when we encounter a <FORM> element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.
Т.е. если на достаточно интересном сайте (с точки зрения Гугла) будет обнаружена поисковая форма,бот Гугла начинает подставлять в поисковую форму некоторые слова, найденные на этом сайте, а также перебирать все возмножные варианты в селектах, боксах и радио-кнопках формы поиска. Если результат такого "поиска" покажется Гуглу интересным и заслуживающим внимания пользователей, а также этот контент до этого не числился в его поисковом индексе, он будет включен в индекс на равне с другими страницами.
Собственно это объясняет замеченную пару дней назад активность гуглового бота на одном из сайтов с поиском, где скрипт поиска не был закрыт в robots.txt. Таким образом, если вы хотите закрыть ваши поисковые (или другие интерактивные) базы от бота Гугла, вам нужно закрыть обработчики ваших форм в robots.txt.