Если сайт или его отдельные страницы не появляются в индексе поисковой системы достаточно долгое время, необходимо проанализировать его на наличие ошибок, препятствующих индексации.
Проблемы с индексацией могут возникать как у нового сайта, так и у сайта, который ранее был проиндексирован, но затем начинает наблюдаться выпадение отдельных документов. Иногда подобные «выпадения» результат технических проблем поисковой системы и, если на сайте не было серьезных доработок, достаточно подождать пару апдейтов и все вернется. Но если работа с сайтом проводилось — необходимо проверить его еще раз, возможно где-то были допущены ошибки, которые повлияли на возможность индексации страниц. Таких ошибок может быть великое множество, но имеет смысл выделись самые распространенные из них. К факторам затрудняющим индексацию сайта поисковой системой относятся:
- технических проблемы, мешающие работе робота поисковой системы;
- сайт попал в «черный список» или под санкции поисковых систем;
- сайт является дублем другого ресурса, содержит неуникальную информацию и т. п.;
- сайт слишком долго грузится и не соответствует временным лимитам обработки роботом;
- нет внешних ссылок ведущих на ресурс.
Рассмотрим более подробно перечисленные варианты причин неиндексации сайта поисковыми системами.
Индексация нового сайта
После размещения нового сайта на хостинге необходимо, чтобы поисковые системы узнали о его существовании. Поскольку вся навигация в Интернет сети ведется по ссылкам, необходимо размещение внешних ссылок на ресурс в сети: каталоги, социальные сети, порталы и т. п. В индекс поисковой системы Яндекс можно попасть добавив сайт через форму «Сообщить о новом сайте».
Технические ошибки мешающие корректной индексации сайта
Иногда нормальной индексации отдельных документов ресурса мешает сама структура сайта, не всегда продуманная и логичная. Большая вложенность, не структурированное меню, которое занимает более одного экрана — все это может помещать поисковому роботу нормально воспринять и проиндексировать документы сайта. У роботов поисковых систем есть лимиты на количество ссылок на странице — это стоит учитывать.
Скорость загрузки сайта так же может влиять на индексацию, Размещайте сайт на качественном хостинге, оптимизируйте изображения, чтобы ускорить их загрузку. У робота поисковой системы есть ограничения по времени ожидания загрузки документа.
Необходимо периодически проверять сайт на наличие «битых ссылок», так как большое количество страниц в индексе, отдающих 404 ошибку, может стать причиной исключения ресурса из индексной базы.
Технические ошибки в оформлении кодировки текста и кода документа могут привести к тому, что страница или не грузится до конца или выдается пользователю в нечитаемом виде, эту проверку достаточно провести один раз, чтобы избежать возможных проблем с индексацией.
Убедитесь, что оформление страницы соответствует стандартам до того как делать сайт доступным к индексации, для этого можно использовать валидаторы.
Некорректно настроенные редиректы тоже могут привести к выпадению документа из поискового индекса. Например использование 302, вместо 301 — временного, вместо постоянного перемещения страницы. Или использование тега «rel=”canjnical”», когда в качестве канонической для всех документов указывается одна страница, прямой путь к потере документа.
Казалось бы, невозможная ситуация, но на практике она встречается достаточно часто: ресурс закрыт от индексации в файле robots.txt, например, закрывали на период разработки и тестирования, вносили изменения в структуру или код, а затем просто забыли открыть.
Встречаются случаи закрывания через meta-robots , которке достаточно редки, но проверить правильность использования этого тега стоит на всех страницах ресурса.
Домен не делегирован или снят с делегирования по жалобе.
В случае, если сайт взломали и разместили на нем вредоносный код (вирус) необходимо устранить проблему и написать в службу поддержки поисковой системы. Практически всегда сайт будет восстановлен в индексной базе в течение пары апдейтов.
Ошибки в наполнении сайта
Иногда причиной отсутствия сайта в индесной базе становится неуникальность размещенного на нем контента. Что движет создателями таких сайтов понять сложно, но страницы наполнены либо содержанием, взятым с других ресурсов, либо цитатами из литературных произведений, либо просто сгенерированным набором символов, иногда не являющихся текстом, пригодным для чтения. Возможно такие наборы и уникальны, если оценивать их обычным тестером контента, каких сейчас много в сети, но, например, у поисковой системы Яндекс довольно мощный алгоритм проверки текстов, который работает не только со статистическими данными. В последнее время со снижением значимости ссылочного фактора ранжирования внутренние факторы сайта, в частности, контент, приобретают все большее влияние. Уникальный, хорошо структурированный текст, полностью отвечающий запросу пользователя, иллюстрированный фото или графическими данными, имеющий ссылки на поясняющие или расшифровывающие тексты — вот идеальное наполнение для сайта
Очень часто из индекса исключаются документы объем содержания которых менее 500 символов, видимо поисковые системы уверены, что такой маленький объем не несет достаточной информационной нагрузки.
Могут быть исключены из индекса поисковой системы страницы, являющиеся дублями некоторых документов сайта или те, наполнение которых только шаблонные тексты, даже используя тексты-шаблоны стоит максимально уникализировать их.
Наличие орфографических ошибок на сайте так же может стать причиной исключения документа из индексной базы, очень гнетущее впечатление производят тексты на некоторых сайтах, как будто написанные человеком, не владеющим языком в полной мере. При наличии текстовых редакторов проверка орфографии вообще не представляет проблемы.
Вот основные, наиболее часто встречающиеся причины не попадания сайта в индекс поисковой системы.