Гугл пошел в глубину

На Official Google Webmaster Central Blog появилось сообщение о том, что бот Гугла приступил к индексированию глубинного веба:

... when we encounter a <FORM> element on a high-quality site, we might choose to do a small number of queries using the form. For text boxes, our computers automatically choose words from the site that has the form; for select menus, check boxes, and radio buttons on the form, we choose from among the values of the HTML. Having chosen the values for each input, we generate and then try to crawl URLs that correspond to a possible query a user may have made. If we ascertain that the web page resulting from our query is valid, interesting, and includes content not in our index, we may include it in our index much as we would include any other web page.

Т.е. если на достаточно интересном сайте (с точки зрения Гугла) будет обнаружена поисковая форма,бот Гугла начинает подставлять в поисковую форму некоторые слова, найденные на этом сайте, а также перебирать все возмножные варианты в селектах, боксах и радио-кнопках формы поиска. Если результат такого "поиска" покажется Гуглу интересным и заслуживающим внимания пользователей, а также этот контент до этого не числился в его поисковом индексе, он будет включен в индекс на равне с другими страницами.

Собственно это объясняет замеченную пару дней назад активность гуглового бота на одном из сайтов с поиском, где скрипт поиска не был закрыт в robots.txt. Таким образом, если вы хотите закрыть ваши поисковые (или другие интерактивные) базы от бота Гугла, вам нужно закрыть обработчики ваших форм в robots.txt.

Гугл пошел в глубину: 23 комментария

  1. Maxime

    Интересно, после начала индексирования англоязычного инета, хватит ли Яндексу ресурсов для аналогичной фишки по Рунету ?

  2. BoG

    Имхо неправильная и вредная фича.
    Во первых юзера на страницу с полученным контентом послать не получиться. Так как юзер идет по ГЕТ, а индексируются результаты полученные через ПОСТ.

    Во вторых обычно такие запросы сильно нагружают сервер. Недаром многие ограничивают поиск по сайту либо только для зарегестрированных пользователей, либо только по определенным параметрам.

    В третьих уже были случаи когда поисковые боты удаляли материалы, или выполняли иные деструктивные операции на сайтах.

    Так что имхо не в ту стороны они пошли.

  3. Maxime

    1. Нормальный поиск всегда работает через GET, чтобы юзеры могли передавать/пересылать ссылки на результаты поиска. Плюс метод передачи указывается в форме, поэтому поисковик не пойдет делать POST-запросы.

    2. Ну так и закрывайте поиск, паролем или в robots.txt. Если вы заботитесь о лишней нагрузке, это вы уже и так должны были сделать.

    3. Это клинический случай неправильной архитектуры ПО сайта. Так не нужно программировать и тут не бот виноват.

  4. BoG

    Прочитал оригинал.
    Надо было точнее цитировать источник. Гугл будет индексировать только ГЕТ формы которые являются навигационными.

    Так что отчасти вышеприведенные замечания становятся неактуальными.
    Но в целом..., Maxime, речь не о конкретном человеке или скрипте, а о тысяче стандартных движков которыми пользуются сотни тысяч рядовых владельцев сайтов и блогов, которые в свою очередь нифига не смыслят ни в безопасности, ни в сео, ни в програмировании. Так что количество потенциальных жертв может быть внушительным.

  5. Dott

    Мне кажется гуглу просто мощности своей девать некуда (100 тысяч компов работает на них). Сомневаюсь, что если подбирать к поисковой форме запросы, то можно найти что-то дествительно интересное...

  6. Maxime

    По-моему, не знание правил дорожного движения - проблема тех, кто их не знает. Тут тоже самое, Гугл ведет себя совершенно корретно, соблюдая все стандарты и нормы приличия. Но если вы ничего не смыслите в сайтостроении - заплаите тому, кто смыслит и поможет вам с вашим сайтом.

  7. Seo

    а для рунетовского Гугла - это нововведение тоже актуально или это только пока для буржунета?

  8. Maxime

    Я не думаю, что Гугл как-то делит инет в этом вопросе, во всяком случае вышеупомянутый сайт находится в Рунете.

Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *