Секреты поисковой оптимизации сайтов. Часть 2

4. Использование мета-тегов для передачи информации и блокирования индексации контента

Для того чтобы сообщать целому ряду клиентов необходимую информацию о Вашем сайте, Вы, как владелец своего веб — ресурса, можете использовать метатеги добавленные к части HEAD. Важно запомнить, что каждый индексирующий механизм будет заниматься обработкой мета — тегов только определенного формата и проигнорирует остальные, за исключением тех о которых будет написано ниже (их учет потребуется нам в продвижении нашего с Вами веб-сайта).

Для целей поисковой оптимизации самое существенное значение будут иметь для нас теги TITLE и DESCRIPTION. Почему? Потому что TITLE показывается не только в интернет — обозревателе пользователя, но и в виде ссылки на документ на странице выдачи поисковых результатов. Аналогично мета-содержимое тега DESCRIPTION является описанием какой-либо конкретной страницы и поисковик может использовать его в качестве сниппета на той же странице поисковой выдачи для Вашего сайта.

Теперь давайте подумаем о том, какие мета — теги помогут нам управлять агентом накопления данных? Таким тегом будет являться ROBOTS (не путать с файлом ROBOTS.TXT). В первоначальном виде ему даны значения INDEX, FOLLOW — аналогично ALL. Однако, если мы хотим запретить роботу поисковой системы индексировать содержимое какой-либо страницы и удалить его содержимое из поиска, то нам следует указать для этой страницы значение NOINDEX. А если мы хотим воспрепятствовать индексатору прохождению по ссылкам с этого документа, то соответственно прописываем в теге ROBOTS значение NOFOLLOW (значение NOINDEX, NOFOLLOW аналогичны NONE). В случае, если мы хотим запретить показывать ссылку на сохраненную копию нашего сайта в кэше поисковой системы на странице поисковой выдачи, то для мета-тега ROBOTS указываем NOARCHIVE.

Какую еще информацию мы можем передать с помощью мета-тегов? Первое что приходит на ум — KEYWORDS и CONTENT-TYPE. Посредством KEYWORDS мы можем перечислить те ключевые слова, которые присущи какой-либо конкретной страницы, и хотя поисковые машины без труда определять наиболее важные, как для отдельного документа, так и для всего сайта целиком ключевые словосочетания, многие веб-мастера заполняют данный мета-тег. Используя CONTENT-TYPE мы помогаем определить тип содержимого нашего документа и его кодировку.

А имеются ли мета-теги, которые, несмотря на свою широкую применяемость, могут негативно повлиять на продвижение сайта в поисковой системе? Имеются, и одним из них является REFRESH. Мы настоятельно рекомендуем ограничиться в использовании мета-тегов перенаправления, которые переадресуют пользователя на другой URL по прошествии некоторого времени нахождения на какой-либо странице, поскольку они могут не только не поддерживаться всеми интернет — обозревателями, но и вводить ваших посетителей в заблуждение.

Помните, что любая поисковая система будет игнорировать неизвестные для нее мета-теги и индексировать все содержимое страницы, если ей не будет указано Вами обратное.

5. Указание параметров индексирования сайта с помощью файла ROBOTS.TXT

Посредством использования файла ROBOTS.TXT владелец сайта может влиять на параметры индексации своего веб-ресурса, в том числе определять те разделы и/или страницы, которые следует заблокировать и удалить из поискового индекса. Для того, чтобы создать такой файл достаточно использовать программу Mircosoft Блокнот или WordPad. Стоит заметить, что даже если Вы не хотите блокировать содержимое Вашего сайта, мы настоятельно рекомендуем Вам создать его, хотя бы для того чтобы определить для своего сайта основное зеркало (адрес домена в результатах поиска с www. или без www.), о чем мы также расскажем чуть ниже.

Каждый агент накопления данных любой цивилизованной поисковой системы (мы не будем рассматривать роботов — спамеров, мошеннических программ, а также иных роботов которые могут обрабатывать содержимое данного файла несколько иначе) прежде чем обратиться к документам нашего с Вами веб-сайта автоматически ищет в корне файл ROBOTS.TXT, и в случае его обнаружения следует тем директивам, которые там указаны.

Самый простейший файл, который потребуется нам для качественного поискового продвижения веб-сайта может быть представлен следующим образом:

User-agent: (агент накопления данных, которому требуется выполнять следующее правило. Если мы пишем правило для всех агентов, то указываем звездочку «*»)

Disallow: (адрес раздела и/или страницы для блокирования. Если таких разделов нет, то просто оставляем правило пустым)

Host: wseob.ru (указываем то зеркало-адрес сайта, которое поисковому роботу следует считать основным и показывать в результатах поиска)

Что такое главное зеркало сайта и зачем оно нужно в оптимизации сайта? Поисковая система считает зеркалами полностью и/или частично идентичные по своему содержанию сайты. Сюда можно также отнести прописание адреса домена с www. и без них, поскольку для поисковой машины эти адреса будут считаться разными, а их содержимое одинаковым. Для того, чтобы продвижение сайта учитывало влияние внешних ссылок ведущих как на адрес сайта с www., так и без www., мы и указываем в файле ROBOTS.TXT директиву Host. Запомните, что в результатах поисковой выдачи Вы можете видеть только основное зеркало. Также следует учесть, что запрет на индексацию раздела и/или страницы посредством использования директивы Disallow еще не может гарантировать Вам ее 100% отсутствие в результатах поиска, поэтому для гарантированного исключения ее из индекса параллельно воспользуйтесь мета-тегом NOINDEX.

6. Справочная информация по ошибкам индексирования и анализа файла ROBOTS.TXT

Ошибки индексирования
Ошибки и предупреждения при анализе файла robots.txt

1. Ошибки индексирования

Рассмотрим те ошибки, с которыми сталкивается индексирующие механизмы поисковых систем при обходе сканируемого веб-сайта. Условно разделим их на 2 категории: 1) Ошибки загрузки, когда краулеру не удается загрузить получаемый файл; 2) Ошибки обработки, которые возникают в том случае, когда ему не удалось осуществить обработку уже загруженного файла.

1.1 Ошибки индексирования при загрузке

Разрыв соединения. При попытке получить какой-либо документ с веб-сайта, произошел разрыв соединения. На случай возникновения подобной ситуации, роботу дается несколько попыток.
Превышена предельная длина url-адреса.
Превышение предельно допустимого объема содержимого.
Запрет на сканирование был осуществлен посредством директивы файла robots.txt. Поисковый робот цивилизованных поисковых систем будет следовать указанным директивам, индексируя или нет соответствующие документы веб-сайта.
Прописан неверный http-заголовок.
Указан ошибочный адрес веб-страницы. В данном случае, речь может идти о несоответствии его общепринятому стандарту http
Сканеру поисковой машины не удалось соединиться с web-сервером.
Не поддерживается формат имеющегося на сайте веб-документа. Возможно, данный формат не поддерживается какой-либо поисковой системой и/или сервер указал его некорректно.
Некорректна прописана и/или не указана длина сообщения.
Произошла ошибка в системе доменных имен (DNS). Она может быть связанна с ошибкой в Domain Name System непосредственно, невозможностью определить ip хоста по его имени.
Полученный код статуса протокола http не соответствует общепринятому стандарту.
Индексатором была обнаружена некорректная кодировка. Данная ошибка может возникать, как по причине некорректного обозначения transfer-encoding, так и указания неизвестного типа кодирования страницы.
Возникла ошибка на этапе передачи количества информации. Иными словами, фактическая передача информации отличается от заявленной.
Ошибка вызвана превышением предельной длины http-заголовка. Подобного рода ситуация может возникать из-за того, что была предпринята попытка передать избыточный объем cookies.

1.2. Ошибки индексирования при обработке

Роботом обнаружен неканонический веб-документ. Она может возникнуть в ситуации, когда тег link исходного html-кода страницы имеет rel=»canonical», ссылающейся на канонический документ.
Поисковым механизмом не поддерживается язык имеющегося web-документа.
Ошибка произошла вследствие наличия в документе тега refresh. По причине того, что данный мета тег требует от веб-документа обновления своего содержимого, то его текущее состояние может отличаться от проиндексированного поисковым краулером.
Сервер возвращает такой веб-документ, который не содержит контента.
Поисковик обнаружил логи сервера. В случае формального сходства страницы с логом сервера она также не будет индексироваться.
Ошибка произошла из-за превышения максимально допустимого объема исходящих ссылок в документе.
Ошибка произошла из-за наличия мета-тега noindex (nofollow для ссылок). В такой ситуации обнаруженный интернет-документ попусту не индексируется.
Был получен ответ от web-сервера нулевой длины (пустой ответ).
Робот обнаружил отличие текущего формата от заявленного веб-мастером. Например, html, php, pdf, doc и т.д.
Невозможно с определенной достоверностью определить кодировку веб-страницы / блоков текстовой информации.
Некорректное распаковывание gzip и/или deflate потока информации с веб-сервера.
Ошибка произошла из-за обнаружения роботом в содержимом какой-либо страницы некорректной кодировки.

2. Ошибки и предупреждения при анализе файла robots.txt

Ниже рассмотрим список тех ошибок и предупреждений, которые встречаются при анализе создаваемого web-мастерами файла robots.txt

2.1 Ошибки анализа файла robots.txt

Количество всевозможных правил (длинна какого-либо правила) в документе robots.txt превышает максимально допустимый объем в 1024 правила (символа).
Правило при составлении данного файла может начинаться только с символов «/», «*», если оно прописано по иному, то это является ошибкой.
Некорректное указание параметра в директиве clean-param
Отсутствие директивы user-agent перед правилом. К данной ошибке может также привести не столь фактическое отсутствие директивы, а наличие пустой строки после нее.
Ошибкой является наличие в файле robots.txt нескольких зеркалирующих директив host, тогда как допускается только одна.
Обнаружено отсутствие полного URL-адреса (включая http://) файла sitemap.xml
Ошибкой является несколько правил user-agent: * для агентов накопления данных
Некорректное указание формата времени в директиве crawl-delay

2.2 Предупреждения анализа файла robots.txt

Ряд директив могут поддерживаться индексирующими механизмами одной поисковой системы и игнорироваться остальными.
Невозможность корректно интерпретировать какую-либо строчку директивы, вследствие ошибки синтаксиса при ее прописании.
Использование какого-либо недопустимого спецсимвола при составлении директивы

Важно помнить! Профессиональная оптимизация и продвижение сайтов требует корректного составления файла robots.txt!

Страница материала:

Секреты поисковой оптимизации сайтов. Часть 1

Секреты поисковой оптимизации сайтов. Часть 2

Секреты поисковой оптимизации сайтов. Часть 3

Секреты поисковой оптимизации сайтов. Часть 4

Полезная информация по продвижению сайтов:

Майнинг поисковых маршрутов массового серфинга: идентификация релевантных веб-сайтов на основании пользовательской активности

Перейти ко всей информации

Секреты поисковой оптимизации сайтов. Часть 2

4. Использование мета-тегов для передачи информации и блокирования индексации контента

5. Указание параметров индексирования сайта с помощью файла ROBOTS.TXT

6. Справочная информация по ошибкам индексирования и анализа файла ROBOTS.TXT

1. Ошибки индексирования

2. Ошибки и предупреждения при анализе файла robots.txt

Обучение ранжированию I. Попарный подход. Часть 3: Экспериментальная оценка RankBoost

Алгоритм Google Колибри: стимулирование входного и контент-маркетинга

Обучение ранжированию I. Попарный подход. Часть 2: Введение в RankBoost

Майнинг поисковых маршрутов массового серфинга: идентификация релевантных веб-сайтов на основании пользовательской активности