3

Поскольку наличие ключевых слов в URL является одним из факторов ранжирования, настало время убирать расширения типа .php .html из URL выших ссылок если документ, на который они ссылаются создан при помощи PHP и HTML, но он не о PHP или HTML. Зачем вам мусорные ключевики ?

Благо сделать это скорее всего нетрудно. По-моему, для веб-сервера Apache модуль mod_negotiation включается по-умолчанию, и именно этот модуль отвечает за выбор конкретного файла, если в URL не указано расширение (это же относится и к аббревиатуре языка в расширении, её тоже можно опустить).

Некоторое время назад компания Google предложила Google Sitemaps как средство для ускорения индексирования сайтов. Теперь для этого сервиса доступна статистика и анализ ошибок.

Одна особенность: чтобы воспользоваться статистикой и анализом ошибок вовсе не обязательно иметь Google Sitemaps на сайте, достаточно ввести URL сайта и подтвержить, что это ваш сайт разместив в его корне файл со специальным именем.

Зарегистрировав сайт, вы сможете просматривать статистику самых популярных поисковых запросов, по которым ваш сайт попадает в выдачу, а также самые популярные запросы, по которым пришли к вам со старниц результатов поиска в Google. В дополнение к этому статистику по кодам ответа вашего веб сервера, PR страниц вашего сайта, MIME-типов страниц вашего сайта и кодировок страниц вашего сайта.

//WebRankInfo.com

Использование поисковой машины позволяет:

Сэкономить время 43%
Найти дополнительную информацию 24%
Проверить правильность ввода URL сайта 23%
посетить другие сайты 10%

Используют поисковые машины для поиска адреса сайта:

Всегда 52%
Часто 31%
Время от времени 17%

Число поисковых машин, используемых для поиска сайта:

Одна 40%
Две 35%
Три и более 25%

Типология запросов к поисковым машинам:

  Март 2005 Май 2005
Запрос из 1 слова 35.0% 34.0%
Запрос из 2 слов 29.2% 29.8%
Запрос из 3 слов 17.2% 17.8%
Категории каталогов 4.9% 3.9%
Другие 13.8% 14.5%

//JournalDuNet.com

4

Технические факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

  • Доступность документа [5]. Недоступность документа может быть вызвана ошибкой 404, ошибкаим в работе веб-сервера, необходимостью установки плугина для просмотра и прочими техническими вопросами. Также к недоступности могут приводить методы переадресации, которые поисковые роботы не могут отследить, или необходимость заполнить форму для доступа к информации.
  • Использование фреймов [4]. Фреймы могут повлиять на различные факторы оптимизации, разделение на различные URL может обесценивать входящие на страницу(ы) ссылки, а также размазывая рейтинговую ценность одного документа на несколько страниц. Различные технологически примёмы, такие как CSS повышают юзабельность фреймов, однако классические HTML-фреймы обычно трудны для хорошего рейтинга в поисковых системах.
  • Динамические параметры в URL [4]. Большое число динамических параметров в URL зачастует гарантирует, что этот URL будет пропущен роботом поисковика. Представители различных поисковиков давно советуют ограничиться двумя, а лучше одним динамическим параметром в URL.
  • Идентификаторы сессий [4]. Идентификаторы сессий в URL могут непредсказуемо повлиять на рейтинг, т.к. дубликаты одного и того же документа могут индексироваться десятки и сотни раз под различными URL. Также входящие ссылки будут размазываться по различным URL одного и того же документа.
  • Аптайм хостера [3]. Ненадёжный хостинг с часто неработающим сайтом может приводить к девальвации рейтинга сайта в поискых системах, и даже хуже, далеко не все страницы сайта могут быть проиндексированы. И наоборот, высокий аптайм может увеличить рейтинг как надёжно доступного ресурса.
  • Использование NOARCHIVE/NOINDEX [3]. Директивы noindex и noarchive в META ROBOTS указывают поисковому роботу не индексировать и не сохранять копию страниц сайта. Соответственно контент этих страниц не может повлиять на рейтинг в поисковых машинах, -- они просто о нём не знают.
  • Информация о регистрации домена [2]. Информация о регистрации домена может быть использована поисковыми машинами как источник информации о владельце ресурса, уменьшая рейтинг для спамеров и других нарушителей этикета и закона.
  • Время регистрации домена [2]. Время на которое домен был зарегистрирован может говорить о серьёзности намерений, чем оно больше, тем серьёзнее намерения владельца относительно этого сайта.
  • География хостинга [1]. География хостинга может играть незначительную роль в определении языка и страны контента при вариация рейтинга результатов поиска по этому таргетингу.
  • Длина URL [1]. Длина URL можут быть компонентной меры доверия и/или значимости, более длинные URL могут рассматриваться как неюзабельные или возможный спам.
  • Клоакинг по IP [1]. Хотя такой клоакинг сложно определить, поисковые машины изыскивают способы его определения, и тут же штрафуют сайт.
  • Дата регистрации домена [1]. Как мера возраста сайта, может использоваться поисковыми машинами как источник информации как давно существует этот сайт.
  • Наличие robots.txt [1]. Наличие файла robots.txt может говорить о том, что содержимое сайт можно индексировать и кэшироватьи это влияет на большиство крупных поисковых машин.

//SEOMOZ.org

3

Вредоносные факторы, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

  • Клоакинг [4]. Один из строго наказываемых методов, независимо злонамеренно или по незнанию, выдачи разного контента разным посетителям, будь то по User-Agent или по IP-адресам, по географическим факторам и т.д. и т.п. Если будет установлено, что в число "и т.д. и т.п." входит поисковая машина, сайт будет практически сразу забанен.
  • Дублируемый контент [4]. Доминирующий в Вебе фактор низкого рейтинга страниц. Дублирование большей части сайта или большей части страницы может очень сильно сказаться на рейтинге одной из копий, независимо от того нарушаются или нет авторские права при таком копировании.
  • Неиспользование кононического имени сайта [4]. Широко распространённая проблема, в особенности для крупных сайтов. Этот фактор вытекает из фактора дублируемого контента, когда, например для адресов url.com, www.url.com и www.url.com/index.html выдаётся один и тот же контент и на каждый их этих адресов приходит множество ссылок с других сайтов и все эти адреса использовались при регистрации в различных каталогах и других списках ресурсов Сети, может негативно сказаться на рейтинге, независимо от того, что фактически это одна и таже страница.
  • Ссылочный спам [3]. Невисимо от конкретного способа, любые ссылки, созданные автоматическим и любым другим "ненатуральным" методом, или заподозренные таковыми поисковой машиной, могут негативно влиять на рейтинг как сайта, так и отдельных страниц.
  • Спам ключевых слов [3]. Любое чрезмерное использование ключевых слов с целью увличить релевантноть по тому или иному поисковому запросу может негативно сказаться на рейтинге.
  • Битый код [2]. Битый код (содержащий ошибки, опечатки, невалидный), мешающий правильному разбору страницы, а также приводящий к зацикливанию или другим "неприятностям" для роботов поисковых машин, может как негативно сказываться на рейтинге страниц, так и приводить к изъятию этих страницы и базы поисковика.
  • "Плохие" ссылки [2]. Внешние ссылки на сайты с низкокачественным контентом, или ещё хуще, участие в различных ссылочнообменных схемах. Поисковые машины жестоко наказывают подобную тактику, некоторые сайты даже банятся по первому подозрению.
  • Неэтичное поведение [2]. Давольно-таки расплывчатое понятие и широко трактуемое поисковыми машинами, включает, но не ограничивается предоставлением ложной информации, вовлечением в незаконные или неэтичные сделки, использованием обмана и других нечестных способов отъёма денег у посетителей и т.п.
  • Незаконный контент [2]. Контент, нарушающий местное, национальное или международное законодательство (зачастую это детская порнография, клевета, пропаганда терроризма и криминальной деятельности), может быть исключен из индекса поисковой машины.
  • Небезопасный контент [2]. Контент, сочтённый небезопасным для детской и подрасткой аудитории может быть забанен или убран и обычной выдачи поисковых машин.
  • Угон URL [3]. Угон URL состоит в печальнознаменитом использовании кода ответа 302 для присваивания позиций выдачи страниц с высоким рейтингом. В краткосрочной перспективе негативно сказывается на рейтинге угоняемого сайта, в долгосрочной -- на рейтинге угоняющего сайта, как только такое воровство будет обнаружено.
  • Битые ссылки [1]. Наличие на странице ссылок на несуществующие документы (возвращается код ответа 404) может негативно сказаться на рейтинге как этой страницы, так и сайта в целом.

//SEOMOZ.org

8

Факторы текста документа, могущие повлиять на ранжирование в поисковых машиных. В скобочках дан уровень важности от 1 до 5.

  • Тэг Title [5]. Содержимое этого тэга всегда отображается вверху окна броузера и очень часто показывается в серпах как заголовок найденого документа;
  • Использование ключевых слов[5]. В документе должны встречаться ключевые слова, которые может ввести пользователь для нахождения этого документа в поисковой системе;
  • Использование связаных терминов [4]. Помимо ключевых слов из запроса, поисковые машины могут определять, используются ли в тексте документа другие ключевые слова, относящиеся к той же специфичной области, что и слова из запроса;
  • Внешние ссылки из документа [4]. Внешние ссылки из документа могут как положительно, так и отрицательно сказываться на ранжировании, в зависимости от тематики страниц и сайтов, на которые указывают эти ссылки;
  • Ссылки с внутренних страниц сайта [4]. По числу ссылок внутри сайта, указывающих на каждый документ, поисковые машины могут определять, какие страницы на сайте являются наиболее важными исходя из структуры этого сайта;
  • Уникальность контента [4]. Уникальный контент -- вот что ищут все поисковики, т.е. ваш документ должен предствлять что-то новое и не быть похожим на многие другие документы в Сети, дубликаты страниц зачастую просто удаляются из поисковой базы;
  • Возраст документа [3]. Для каждого документа в поисковых машинах хранися время его появления в базе, т.е. время когда он был впервые обнаружен ботами поисковика, более старые докумеенты могут рассматриваться как более важные, ценные илди авторитетные, новые документы могут рассматривать как более релевантные при поиске с упорядочиванием по времени или новизне;
  • Авторские пометки [3]. Разбирая заведомо ценные авторские документы, поисковые машины могут определять структурные особенности таких страниц и использовать эти шаблоны при индексировании новых документов для определения возможно того же авторства или подобных документов;
  • Язык документа [3]. Естественно по запросу, например, на японском языке, более релеватными считать документы на японском же языке. Поэтому для поисковых машин желательно явно указывать язык(и) документа;
  • Морфология [3]. Документы, содержащие и другие морфологические формы слов запроса могут рассматриваться поисковыми машинами более релевантными данному запросу. Другие же поисковые машины могут рассматривать все морфологические формы как одно и тоже;
  • Структура заголовков [3]. Структура заголовков Hx на странице может дать поисковику информацию, какие части документа более или менее важные. Если заголовки одного уровня различны, но близки по теме -- это может быть дополнительно полезно;
  • Цитирование [3]. Цитирование, в смысле сносок и ссылок в книгах и журналах на источники процитированого, может положительно сказываться при поиске научной, учебной или подобной информации;
  • Глубина документа на сайте [3]. Глубиной документа на сайте считается минимальное число мышиных кликов (следую по ссылкам), необходимое для получения данного документа;
  • Мера обновлений документа [3]. Переодически просматривая документ, посиковые машины могут не только отслеживать частоту изменения документа, но и вести журнал всех изменений контента и ссылок;
  • Разнообразие и % измнеений [2]. Ведя журнал изменений документов, поисковые машины могут отслеживать какая часть контента изменялась, связано ли это с изменением шаблона страниц сайта (косметические изменения), или только одного документа, какой процент содержимого подвергался изменению, было это добавлением нового контента, или правкой старого и т.п.;
  • Структура документа [2]. Для некоторых документов, например, с длинным контентом или, особенно, для хорошо структурированых документов, порядок следования предложений, фраз и слов в теле документа может приниматься поисковиками во внимание;
  • Внутренние ссылки [2]. Релевантные внутренние ссылки на документ (навигационные ссылки не учитываются), могут подсказать поисковой машине тему данного документа;
  • Тэг Meta Keywords [2]. Несмотря на то, что этот тэг считается пережитком ранниъх дней Паутины, некоторые поисковые машины могут его использовать, можно также использовать этот тэг и для указания наиболее частых опечаток ваших ключевых слов;
  • Ключевые слова в URL [2]. Использование ключевых фраз и слов в ссылках с данного документа может дать дополнительный вес в некоторых поисковиках, независимо как эти слова указываются в URL, через дифис или слитно;
  • Тэг Meta Description [2]. Считается устаревшим, но может использоваться некоторыми поисковиками для описания вашего документа в результатах поиска, однако спорно, что использование ключевых слов в этом тэга как либо влияет на позиционирование;
  • Использование H1, bold, strong и др. [1]. Хотя тэги H1, bold, strong и др. продолжают широко использоваться для визуального выделения темы и ключевых фраз и слов, маловероятно, что они как-то влияеют на ранжирование поисковых машин, в основном из-за широкого распространения так называемой "переоптимизации";
  • Использование грамматики [1]. Использование грамматиками поисковыми машинами для ранжирования документов под вопросом, возможно только специализированые научные поисковики;
  • Правописание [1]. Так же как и граматика, правописание всех слов документа может служить мерой качества этого документа для поисковых машин. Возможно этот фактор учитывается в зависимости от запроса, а также не учитывается для специализированых сайтов из таких областей, как юмор, культура и искусство, где неправильное правописание может использоваться специально;
  • Частота стоп-слов [1]. Частота исаользования стоп-слов (наиболее часто используемых слов) может служить мерой стиля документа, если частота стоп-слов высока, вероятно это небольшая попсовая заметка, если же чатота этих слов мала -- это серьёзный неоднопараграфный текст. Вероятно этот фактор также зависит от поискового запроса;
  • Читабельность текста [1]. Читабельность текста -- это мера основаная, на частоте использования общеупотребительных, слов из словарного запаса школьников того или иного года обучения, а также редких, специализированых слов в тексте документа. Эта мера может учитываться исходя из запроса, а также если есть информаци о том, кто ищет, -- если ищет школник, то ему не осилить статьи из академических журналов;
  • Качество текста документа [1]. Хотя эта мера очень субъективна, существуют методы автоматического его определения, вероятно у каждого поисковика они свои, и пока под вопросом насколько сильно и как скоро эта мера будеит влиять на ранжирование;
  • Текст в alt/img title [1]. Хотя содержимое этих тэгов оносится к тексту документа как целому, мало вероятно, что они сильно влияют на оценку содержимого всего документа. Весьма вероятно они больше влияют на поиск изображений (вместе с именем файла картинки);
  • Длина документа [1]. Длина документа, в байта, словах, предложениях и т.п. может использоваться поисковиками при ранжированияя, подразумевая для некоторых запросов более кратнкие документы более релевантными, в других же случаях отдавая предпочтения более длиннным документам. Нет оптимального размера документа для поисковых машин;
  • Внутридокументные ссылки [1]. Поисковые машины могут использовать именованые внутридокументные ссылки (anchors) при разборе длиннных структурированых документов, напрмиер статей Wikipedia;
  • Тип документа [1]. Тип дакумента, например .pdf, .doc, .txt т.п. может учитываться при ранжировании, по-разному в зависимости от того или иного зароса;
  • Соответствие стандартам W3C [1]. Учёт поисковыми машинами этого фактора под вопросом, но забывать о нём не стоит.

//SEOMOZ.org

Разгребая в очередной раз авгиевы страницы сочинcкого инета подумалось, а сколько сайтостроителей читало, к примеру, рекомендации Google для вебмаcтеров ? Явно же делают всё наоборот...

На всякий случай приведу некоторые из них.

Рекомендации по дизайну и контенту

  • Создавайте сайт с чёткой структурой и текстовыми ссылками. Каждая страница должна быть достижима хотя бы по одной статичной текстовой ссылке.
  • Создавайте для пользователей карту сайта. Если карта сайта содержит более 100 ссылок, разбивайте карту на страницы.
  • Создавайте полезный и информативный сайт; создавайте страницы чётко и аккуратно описавающие ваш контент.
  • Подумайте, по каким словам искали бы пользователи ваш контент и убедитесь, что страницы вашего сайта содержат эти слова.
  • Старайтесь использовать текст вместо картинок для вывода важных наименований, контента или ссылок. Помните, пауки Google не понимают текста, выводимого в изображениях.
  • Убедитесь, что ваши тэги TITLE и ALT наглядны и аккуратны.
  • Проверьте все ссылки, не биты ли они; проверьте HTML код ваших страниц.
  • Если вы решаете использовать динамические страницы (т.е. URL которых содержит '?'), учитывайте, что далеко не каждый поисковый робот воспринимает такие страницы также, как и статические страницы. Полезно давать параметрам динамических страниц короткие имена и постараться сохранить число параметров малым.
  • Число ссылок на странице должно быть разумным (менее 100).

Технические рекомендации

  • Используйте текстовый проузер, например Lynx, для проверки вашего сайта, так как большинство поисковых роботов видят сайт примерно таким, как он выглядит в Lynx. Если различные фичи вроде кук, JavaScript, фреймов, идентификаторов сессий, DHTML или Flash не позволяют полноценно просматривать ваш сайт в текстовом броузере, весьма вероятно поисковым роботам также будет затруднительно проиндексировать ваш сайт.
  • Позвольте поисковым роботам передвигаться по вашему сайту без использования идентификаторов сессий, переменных или кук, отслеживающих движение пользователей по сайту. Эти технологии полезны для отслеживания поведения обычных пользователей, поведение поисковых роботов совершенно другое. Они также могут привести к неполной индексации сайта, т.к. поисковый робот не сможет вычислить различные URL, указывающие на одну и ту же страницу.
  • Убедитесь, что ваш веб-сервер поддерживает HTTP заголовок If-Modified-Since. Эта фича позволит вашему веб-серверу указать роботу Google, изменилась ли ваша страница с момента предыдущего посещения. Что также умешит нагрузку на ваш сервер и сократит объём передаваемых данных.
  • Используйте файл robots.txt на вашем сервере. Этот файл говорит роботам какие директории могут или не могут быть проиндексированы. Также проверьте, не блокирует ли случайно текущая версия этого файла на вашем сайте его индексирование роботом Google. См. http://www.robotstxt.org/wc/faq.html как правильно составлять этот файл.
  • Если ваша компания покупает CMS (систему управления контентом), убедитесь, имеет ли эта система может выводить контент в доступном для поисковых роботов виде.
  • Не используйте параметр "&id=" в ваших URL, т.к. наш робот не индексирует подобные страницы.

1

Интересный сервис от Copyscape - для введённого URL находятся страницы, содержащие фрагменты текста с указаного URL. Также для защиты содержимого вашего сайта предлагается установить на каждую страницу специальный банер, предупреждающий о защите содержимого при помощи Copyscape. Предлагаемые банеры трёх размеров: 120х60, 234х16 и 88х31 пикселов и разнообразной гаммы.