Некоторое время назад обнаружил странные записи в логе веб-сервера (фрагмент ниже). Все запросы идут с одного IP-адреса, в User-Agent содержится подстрока Google Desktop. Мужду некоторыми последовательными запросами интервал в несколько секунд, что явно мало для обычного поиска в одну человеческую силу. Запросы повторялись непрерывно с небольшими интервалами двое суток кряду (до блокировки файрволом) -- человек столько без сна непрерывно запрашивать одно и тоже явно не может (с нормальной головой). Предварительный вывод: Google Desktop чудит.
Метка: robots.txt
Ansearch проштрафился
Австралийский поисковик Ansearch вынужден в ближайшем времени внести изменения в код своего поисковика для устранения жалоб со стороны вебмасетров, обнаружевших копии своих страниц с сайта Ansearch в кэше других поисковиков.
Хм, а не проще ли просто соответсвующего правило в robots.txt прописать 🙂
В принципе, показ кээшированых копий страниц является необходимой функцией современного поисковика, однако большинство поисковиков закрывают такие страницы от индексирования другими поисковиками, -- это негласное правило хорошего тона.
93. Технические факторы
Технические факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.
- Доступность документа [5]. Недоступность документа может быть вызвана ошибкой 404, ошибкаим в работе веб-сервера, необходимостью установки плугина для просмотра и прочими техническими вопросами. Также к недоступности могут приводить методы переадресации, которые поисковые роботы не могут отследить, или необходимость заполнить форму для доступа к информации.
- Использование фреймов [4]. Фреймы могут повлиять на различные факторы оптимизации, разделение на различные URL может обесценивать входящие на страницу(ы) ссылки, а также размазывая рейтинговую ценность одного документа на несколько страниц. Различные технологически примёмы, такие как CSS повышают юзабельность фреймов, однако классические HTML-фреймы обычно трудны для хорошего рейтинга в поисковых системах.
- Динамические параметры в URL [4]. Большое число динамических параметров в URL зачастует гарантирует, что этот URL будет пропущен роботом поисковика. Представители различных поисковиков давно советуют ограничиться двумя, а лучше одним динамическим параметром в URL.
- Идентификаторы сессий [4]. Идентификаторы сессий в URL могут непредсказуемо повлиять на рейтинг, т.к. дубликаты одного и того же документа могут индексироваться десятки и сотни раз под различными URL. Также входящие ссылки будут размазываться по различным URL одного и того же документа.
- Аптайм хостера [3]. Ненадёжный хостинг с часто неработающим сайтом может приводить к девальвации рейтинга сайта в поискых системах, и даже хуже, далеко не все страницы сайта могут быть проиндексированы. И наоборот, высокий аптайм может увеличить рейтинг как надёжно доступного ресурса.
- Использование NOARCHIVE/NOINDEX [3]. Директивы noindex и noarchive в META ROBOTS указывают поисковому роботу не индексировать и не сохранять копию страниц сайта. Соответственно контент этих страниц не может повлиять на рейтинг в поисковых машинах, -- они просто о нём не знают.
- Информация о регистрации домена [2]. Информация о регистрации домена может быть использована поисковыми машинами как источник информации о владельце ресурса, уменьшая рейтинг для спамеров и других нарушителей этикета и закона.
- Время регистрации домена [2]. Время на которое домен был зарегистрирован может говорить о серьёзности намерений, чем оно больше, тем серьёзнее намерения владельца относительно этого сайта.
- География хостинга [1]. География хостинга может играть незначительную роль в определении языка и страны контента при вариация рейтинга результатов поиска по этому таргетингу.
- Длина URL [1]. Длина URL можут быть компонентной меры доверия и/или значимости, более длинные URL могут рассматриваться как неюзабельные или возможный спам.
- Клоакинг по IP [1]. Хотя такой клоакинг сложно определить, поисковые машины изыскивают способы его определения, и тут же штрафуют сайт.
- Дата регистрации домена [1]. Как мера возраста сайта, может использоваться поисковыми машинами как источник информации как давно существует этот сайт.
- Наличие robots.txt [1]. Наличие файла robots.txt может говорить о том, что содержимое сайт можно индексировать и кэшироватьи это влияет на большиство крупных поисковых машин.
robots.txt валидатор
Обнаружен ещё один валидатор -- Валидатор robots.txt. Расширения от Яндекса считает ошибкой.
А читают ли это ?
Разгребая в очередной раз авгиевы страницы сочинcкого инета подумалось, а сколько сайтостроителей читало, к примеру, рекомендации Google для вебмаcтеров ? Явно же делают всё наоборот...
На всякий случай приведу некоторые из них.
Рекомендации по дизайну и контенту
- Создавайте сайт с чёткой структурой и текстовыми ссылками. Каждая страница должна быть достижима хотя бы по одной статичной текстовой ссылке.
- Создавайте для пользователей карту сайта. Если карта сайта содержит более 100 ссылок, разбивайте карту на страницы.
- Создавайте полезный и информативный сайт; создавайте страницы чётко и аккуратно описавающие ваш контент.
- Подумайте, по каким словам искали бы пользователи ваш контент и убедитесь, что страницы вашего сайта содержат эти слова.
- Старайтесь использовать текст вместо картинок для вывода важных наименований, контента или ссылок. Помните, пауки Google не понимают текста, выводимого в изображениях.
- Убедитесь, что ваши тэги TITLE и ALT наглядны и аккуратны.
- Проверьте все ссылки, не биты ли они; проверьте HTML код ваших страниц.
- Если вы решаете использовать динамические страницы (т.е. URL которых содержит '?'), учитывайте, что далеко не каждый поисковый робот воспринимает такие страницы также, как и статические страницы. Полезно давать параметрам динамических страниц короткие имена и постараться сохранить число параметров малым.
- Число ссылок на странице должно быть разумным (менее 100).
Технические рекомендации
- Используйте текстовый проузер, например Lynx, для проверки вашего сайта, так как большинство поисковых роботов видят сайт примерно таким, как он выглядит в Lynx. Если различные фичи вроде кук, JavaScript, фреймов, идентификаторов сессий, DHTML или Flash не позволяют полноценно просматривать ваш сайт в текстовом броузере, весьма вероятно поисковым роботам также будет затруднительно проиндексировать ваш сайт.
- Позвольте поисковым роботам передвигаться по вашему сайту без использования идентификаторов сессий, переменных или кук, отслеживающих движение пользователей по сайту. Эти технологии полезны для отслеживания поведения обычных пользователей, поведение поисковых роботов совершенно другое. Они также могут привести к неполной индексации сайта, т.к. поисковый робот не сможет вычислить различные URL, указывающие на одну и ту же страницу.
- Убедитесь, что ваш веб-сервер поддерживает HTTP заголовок If-Modified-Since. Эта фича позволит вашему веб-серверу указать роботу Google, изменилась ли ваша страница с момента предыдущего посещения. Что также умешит нагрузку на ваш сервер и сократит объём передаваемых данных.
- Используйте файл robots.txt на вашем сервере. Этот файл говорит роботам какие директории могут или не могут быть проиндексированы. Также проверьте, не блокирует ли случайно текущая версия этого файла на вашем сайте его индексирование роботом Google. См. http://www.robotstxt.org/wc/faq.html как правильно составлять этот файл.
- Если ваша компания покупает CMS (систему управления контентом), убедитесь, имеет ли эта система может выводить контент в доступном для поисковых роботов виде.
- Не используйте параметр "&id=" в ваших URL, т.к. наш робот не индексирует подобные страницы.