robots — СоНоты

dpsearch-4.54-2016-10-26 2

Максим Захаров26 октября 20162 комментария

Выпущен новый снапшот DataparkSearch Engine. Он доступен на Google Drive или on GitHub.

Изменения от предыдущего снапшота:

Исправлена схема SQL для MySQL5
Исправлено падение при обработке ссылок без указанной схемы
Новое определение версии Apache
Исправлено построение crossword секции
HTML тэги p, option и input теперь могут быть секциями
Более тонкая спячька для нитей при невозможности залочить мютекс
Исправлена компиляция на FreeBSD 10
Добавлена команда Robots collect
Исправлено падение при задании лимита dt:minute
Выключена обработка карт-сайтов для Server/Realm/Subnet с указанным аттрибутом nofollow
Ряд незначительных исправлений

Я планирую прекратить поддержку Apache 1.3 в будущем, дайте мне знать, если вы все еще его используете.

dpsearch-4.54-2015-07-06 1

Максим Захаров13 июля 20151 комментарий

Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:

Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
Мета PROPERTY теперь индексируется
Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
Добавлена команда Cookie
Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
небольшие исправления

...читать далее "dpsearch-4.54-2015-07-06"

Google расширяет Robots Exclusion Protocol 12

Максим Захаров28 июля 200712 комментариев

В официальном блоге компании Google появилась заметка, в которой сообщается о расширении протокола исключений для ротобов (Robots Exclusion Protocol). В доболнение к файлу robots.txt и мета тэгу gooblebot (аналогичному тэгу robots, но с небольшим расширением) добавлен HTTP заголовок X-Robots-Tag, который может передаваться для каждой страницы по отдельности.

Примеры использования этого заголовка:

Не показывать закэшированую копию и не показывать снипет на страницах результатов поиска:
```
X-Robots-Tag: noarchive, nosnippet
```
Не включать документ в результаты выдачи:
```
X-Robots-Tag: noindex
```
Сообщить, что документ не будет доступен после указаной даты (используется формат RFC 850):
```
X-Robots-Tag: unavailable_after: 7 Jul 2007 16:30:00 GMT
```

Можно комбинировать несколько тэгов X-Robots-Tag для одного документа. Например, запретить показ кэшированой копии и удалить из индекса после 23rd July 2007, 3pm PST:

X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST

//The Google official blog

93. Технические факторы 18

Максим Захаров6 октября 200518 комментариев

Технические факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

Доступность документа [5]. Недоступность документа может быть вызвана ошибкой 404, ошибкаим в работе веб-сервера, необходимостью установки плугина для просмотра и прочими техническими вопросами. Также к недоступности могут приводить методы переадресации, которые поисковые роботы не могут отследить, или необходимость заполнить форму для доступа к информации.
Использование фреймов [4]. Фреймы могут повлиять на различные факторы оптимизации, разделение на различные URL может обесценивать входящие на страницу(ы) ссылки, а также размазывая рейтинговую ценность одного документа на несколько страниц. Различные технологически примёмы, такие как CSS повышают юзабельность фреймов, однако классические HTML-фреймы обычно трудны для хорошего рейтинга в поисковых системах.
Динамические параметры в URL [4]. Большое число динамических параметров в URL зачастует гарантирует, что этот URL будет пропущен роботом поисковика. Представители различных поисковиков давно советуют ограничиться двумя, а лучше одним динамическим параметром в URL.
Идентификаторы сессий [4]. Идентификаторы сессий в URL могут непредсказуемо повлиять на рейтинг, т.к. дубликаты одного и того же документа могут индексироваться десятки и сотни раз под различными URL. Также входящие ссылки будут размазываться по различным URL одного и того же документа.
Аптайм хостера [3]. Ненадёжный хостинг с часто неработающим сайтом может приводить к девальвации рейтинга сайта в поискых системах, и даже хуже, далеко не все страницы сайта могут быть проиндексированы. И наоборот, высокий аптайм может увеличить рейтинг как надёжно доступного ресурса.
Использование NOARCHIVE/NOINDEX [3]. Директивы noindex и noarchive в META ROBOTS указывают поисковому роботу не индексировать и не сохранять копию страниц сайта. Соответственно контент этих страниц не может повлиять на рейтинг в поисковых машинах, -- они просто о нём не знают.
Информация о регистрации домена [2]. Информация о регистрации домена может быть использована поисковыми машинами как источник информации о владельце ресурса, уменьшая рейтинг для спамеров и других нарушителей этикета и закона.
Время регистрации домена [2]. Время на которое домен был зарегистрирован может говорить о серьёзности намерений, чем оно больше, тем серьёзнее намерения владельца относительно этого сайта.
География хостинга [1]. География хостинга может играть незначительную роль в определении языка и страны контента при вариация рейтинга результатов поиска по этому таргетингу.
Длина URL [1]. Длина URL можут быть компонентной меры доверия и/или значимости, более длинные URL могут рассматриваться как неюзабельные или возможный спам.
Клоакинг по IP [1]. Хотя такой клоакинг сложно определить, поисковые машины изыскивают способы его определения, и тут же штрафуют сайт.
Дата регистрации домена [1]. Как мера возраста сайта, может использоваться поисковыми машинами как источник информации как давно существует этот сайт.
Наличие robots.txt [1]. Наличие файла robots.txt может говорить о том, что содержимое сайт можно индексировать и кэшироватьи это влияет на большиство крупных поисковых машин.

//SEOMOZ.org

robots.txt валидатор 14

Максим Захаров26 сентября 200514 комментариев

Обнаружен ещё один валидатор -- Валидатор robots.txt. Расширения от Яндекса считает ошибкой.