2

Выпущен новый снапшот DataparkSearch Engine. Он доступен на Google Drive или on GitHub.

Изменения от предыдущего снапшота:

  • Исправлена схема SQL для MySQL5
  • Исправлено падение при обработке ссылок без указанной схемы
  • Новое определение версии Apache
  • Исправлено построение crossword секции
  • HTML тэги p, option и input теперь могут быть секциями
  • Более тонкая спячька для нитей при невозможности залочить мютекс
  • Исправлена компиляция на FreeBSD 10
  • Добавлена команда Robots collect
  • Исправлено падение при задании лимита dt:minute
  • Выключена обработка карт-сайтов для Server/Realm/Subnet с указанным аттрибутом nofollow
  • Ряд незначительных исправлений

Я планирую прекратить поддержку Apache 1.3 в будущем, дайте мне знать, если вы все еще его используете.

1

Выпущен новый снапшот DataparkSearch Engine версии 4.54. Вы можете скачать его с Google Drive.

Ниже дан список изменений с момента выпуска предыдущего снапшота:

  • Секция Crossword теперб включает значения аттрибута TITLE тэга IMG и значения атрибутов ALT и TITLE тэгов A и LINK, найденных на страницах, ссылающихся на индексируемый документ
  • Мета PROPERTY теперь индексируется
  • Мета-информация об URL теперь сохраняется для всех документов с HTTP статус-кодом < 400
  • configure скрипт теперь понимает ключ --without-libextractor, позволяющий собрать dpsearch без поддержки libextractor даже если эта библиотека установлена
  • Включена поддержка robots.txt для сайтов, индексируемых с использованием HTTPS
  • Добавлена команда AuthPing, позволяющая посылать авторизационные запросы перед началом индексирования сайта. См. детали ниже.
  • Добавлена команда Cookie
  • Добавлена поддержка SOCKS5 прокси серверов без авторизации или с использованием авторизации по логину и паролю. См. детали ниже.
  • небольшие исправления

...читать далее "dpsearch-4.54-2015-07-06"

12

В официальном блоге компании Google появилась заметка, в которой сообщается о расширении протокола исключений для ротобов (Robots Exclusion Protocol). В доболнение к файлу robots.txt и мета тэгу gooblebot (аналогичному тэгу robots, но с небольшим расширением) добавлен HTTP заголовок X-Robots-Tag, который может передаваться для каждой страницы по отдельности.

Примеры использования этого заголовка:

  • Не показывать закэшированую копию и не показывать снипет на страницах результатов поиска:
    X-Robots-Tag: noarchive, nosnippet
    
  • Не включать документ в результаты выдачи:
    X-Robots-Tag: noindex
    
  • Сообщить, что документ не будет доступен после указаной даты (используется формат RFC 850):
    X-Robots-Tag: unavailable_after: 7 Jul 2007 16:30:00 GMT
    

Можно комбинировать несколько тэгов X-Robots-Tag для одного документа. Например, запретить показ кэшированой копии и удалить из индекса после 23rd July 2007, 3pm PST:

X-Robots-Tag: noarchive
X-Robots-Tag: unavailable_after: 23 Jul 2007 15:00:00 PST

//The Google official blog

18

Технические факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

  • Доступность документа [5]. Недоступность документа может быть вызвана ошибкой 404, ошибкаим в работе веб-сервера, необходимостью установки плугина для просмотра и прочими техническими вопросами. Также к недоступности могут приводить методы переадресации, которые поисковые роботы не могут отследить, или необходимость заполнить форму для доступа к информации.
  • Использование фреймов [4]. Фреймы могут повлиять на различные факторы оптимизации, разделение на различные URL может обесценивать входящие на страницу(ы) ссылки, а также размазывая рейтинговую ценность одного документа на несколько страниц. Различные технологически примёмы, такие как CSS повышают юзабельность фреймов, однако классические HTML-фреймы обычно трудны для хорошего рейтинга в поисковых системах.
  • Динамические параметры в URL [4]. Большое число динамических параметров в URL зачастует гарантирует, что этот URL будет пропущен роботом поисковика. Представители различных поисковиков давно советуют ограничиться двумя, а лучше одним динамическим параметром в URL.
  • Идентификаторы сессий [4]. Идентификаторы сессий в URL могут непредсказуемо повлиять на рейтинг, т.к. дубликаты одного и того же документа могут индексироваться десятки и сотни раз под различными URL. Также входящие ссылки будут размазываться по различным URL одного и того же документа.
  • Аптайм хостера [3]. Ненадёжный хостинг с часто неработающим сайтом может приводить к девальвации рейтинга сайта в поискых системах, и даже хуже, далеко не все страницы сайта могут быть проиндексированы. И наоборот, высокий аптайм может увеличить рейтинг как надёжно доступного ресурса.
  • Использование NOARCHIVE/NOINDEX [3]. Директивы noindex и noarchive в META ROBOTS указывают поисковому роботу не индексировать и не сохранять копию страниц сайта. Соответственно контент этих страниц не может повлиять на рейтинг в поисковых машинах, -- они просто о нём не знают.
  • Информация о регистрации домена [2]. Информация о регистрации домена может быть использована поисковыми машинами как источник информации о владельце ресурса, уменьшая рейтинг для спамеров и других нарушителей этикета и закона.
  • Время регистрации домена [2]. Время на которое домен был зарегистрирован может говорить о серьёзности намерений, чем оно больше, тем серьёзнее намерения владельца относительно этого сайта.
  • География хостинга [1]. География хостинга может играть незначительную роль в определении языка и страны контента при вариация рейтинга результатов поиска по этому таргетингу.
  • Длина URL [1]. Длина URL можут быть компонентной меры доверия и/или значимости, более длинные URL могут рассматриваться как неюзабельные или возможный спам.
  • Клоакинг по IP [1]. Хотя такой клоакинг сложно определить, поисковые машины изыскивают способы его определения, и тут же штрафуют сайт.
  • Дата регистрации домена [1]. Как мера возраста сайта, может использоваться поисковыми машинами как источник информации как давно существует этот сайт.
  • Наличие robots.txt [1]. Наличие файла robots.txt может говорить о том, что содержимое сайт можно индексировать и кэшироватьи это влияет на большиство крупных поисковых машин.

//SEOMOZ.org

14

Обнаружен ещё один валидатор -- Валидатор robots.txt. Расширения от Яндекса считает ошибкой.