Канонический тег: что стоит за каноническим URL?

Когда поисковые системы индексируют содержимое сайта, они следуют двум основным принципам: во-первых, каждая страница, которая должна быть включена в индекс, должна отвечать хотя бы на один релевантный поисковый запрос. С другой стороны, содержимое страницы может быть найдено только по одному URL-адресу — в противном случае оно классифицируется как дублированный контент. Это означает, что страница, о которой идет речь, не будет проиндексирована или исчезнет из индекса. Многие веб-проекты сталкиваются с дилеммой, если они предлагают схожий контент на одном языке на доменах нескольких стран (например, магазины, имеющие сайты для США, Канады и Великобритании). Описания товаров часто отличаются только валютой и стоимостью доставки. В целом, многие интернет-магазины рискуют получить дублированный контент, когда они предлагают несколько вариантов товара, а описание отличается лишь несколькими словами. В качестве примера можно привести обувь, которая предлагается в разных цветах.

Одним из возможных решений этой проблемы является так называемый канонический тег, который позволяет объявить URL или URI ресурсом по умолчанию для индексации.

Содержание

Что такое канонический тег?
Как работает тег canonical?
Когда имеет смысл использовать канонические указания?
Контент распространяется по динамическим URL-адресам
Доступ к контенту может осуществляться по разным URL-адресам
Контент доступен на разных доменах
Контент имеет разные форматы
Различия между каноническими тегами и 301 редиректом
Канонический тег: распространенные ошибки
Пронумерованные страницы ссылаются на канонический URL-адрес
Относительные URL-адреса не ссылаются на нужную каноническую страницу
Страницы, ссылающиеся на более чем один канонический URL
Канонический URL указывается в теле
Отсутствие канонических тегов в мобильной версии
Канонические теги и hreflang противоречат друг другу

Что такое канонический тег?

В 2009 году Yahoo, Microsoft и Google представили новый тип ссылки под названием canonical, который быстро стал одним из самых важных инструментов для SEO-специалистов, а с 2012 года был обозначен как официальный веб-стандарт в RFC 9596. Как компонент элемента ссылки, она внедряется в HTML-заголовок веб-страницы, в котором находятся заголовок и метаописание. Если каноническая ссылка встроена в страницу, она ссылается на заданный по умолчанию URL или URI, который также называется каноническим URL и используется в качестве источника индексации вместо страницы.

Канонический URL объединяет свою собственную ссылочную популярность и репутацию, а также репутацию ссылающихся страниц — таким образом, он обеспечивает лучшее ранжирование. Однако, поскольку помеченные URL не включаются в индекс, проблем с дублированием контента не возникает. Метка — это всего лишь рекомендация для поисковых систем, указывающая на то, что атрибут ссылки не обязательно должен быть включен в индекс. Если реализация неполная или несовершенная, есть даже риск, что весь сайт будет проигнорирован, вот почему так важно правильно использовать канонический тег.

Как работает тег canonical?

Для того чтобы тег canonical работал, необходимы две вещи: во-первых, необходимо, чтобы точный URL желаемой канонической страницы был указан в качестве ресурса по умолчанию. Во-вторых, необходим элемент link, в который можно вставить канонический URL, включая утверждение canonical. Соответствующий код выглядит следующим образом:

<link rel="canonical" href="URL/URI of the canonical page">

Элемент link, который в HTML не имеет закрывающего тега, содержит атрибуты rel и href, как пустой элемент. Первый необходим для указания связи между текущим и связанным документом, а второй указывает, где можно найти связанный документ. Необходимые для этого значения можно найти внутри кавычек: значение rel ‘canonical’ указывает, что речь идет о каноническом URL, который указан в атрибуте href ниже:

Совет

Тег canonical можно использовать для ссылки на внешний домен, а не только на внутренний. Подход не отличается, поэтому необходимо указывать точный URL, а не адрес сайта по умолчанию.

Чтобы альтернативные страницы ссылались на указанный ресурс по умолчанию, код необходимо вставить в область заголовка соответствующих HTML-документов, как упоминалось выше. Если содержимое находится не в HTML, например, в случае PDF-файла, то его также можно внедрить в HTTP-заголовок. Это логически связано с несколько иным синтаксисом:

Link: <URL/URI of the canonical page>; rel="canonical"

Когда имеет смысл использовать канонические указания?

По определению, канонический тег не является фактором, который поисковые системы должны обязательно включать. Указывая конкретную, репрезентативную версию для нескольких версий контента, вы протягиваете руку помощи краулерам поисковых приложений, хотя не всегда можно быть уверенным, что это будет замечено. Поскольку код также должен быть реализован отдельно для каждого фрагмента множественного контента и для каждого альтернативного URI, возникает вопрос, стоит ли это сравнительно больших усилий. В следующих нескольких параграфах мы обсудим четыре сценария, в которых вам следует рассмотреть возможность использования тега canonical.

Контент распространяется по динамическим URL-адресам

Динамические URL-адреса сегодня играют важную роль — особенно в электронной коммерции. Хотя пользовательские страницы являются отличным и простым вариантом представления одного и того же контента (включая незначительные вариации) разным пользователям, они также создают проблемы для поисковых машин. Здесь настоятельно рекомендуется использовать канонические теги для предотвращения возможного дублирования контента.

Доступ к контенту может осуществляться по разным URL-адресам

Благодаря этой структуре некоторые веб-проекты, такие как блоги, интернет-магазины и консультационные порталы, предлагают контент в нескольких категориях одновременно и поэтому часто под разными URL-адресами. Например, магазин может представить «зеленую рубашку» одновременно на нескольких URL-адресах:

my-ecommerce.store/fashion/shirt-green

my-ecommerce.store/summerfashion/shirt-green

my-ecommerce.store/winterfashion/shirt-green

Контент часто можно найти по разным URL-адресам из-за изменения структуры сайта или даже полного переноса домена. В таких случаях всегда показано 301 перенаправление, но если это невозможно по техническим причинам, ссылка rel=»canonical» может оказаться полезной альтернативой.

Контент доступен на разных доменах

О возможностях так называемых кросс-доменных канонических ссылок уже было сказано вкратце. Таким образом, вы можете легко разместить свои посты на другом домене, не создавая дублирующего контента. Положительные пользовательские сигналы, ссылки и другие релевантные для ранжирования факторы переносятся на оригинальный URL, что может значительно улучшить показатели.

Контент имеет разные форматы

В некоторых ситуациях полезно публиковать контент в разных форматах и, например, предлагать формы не только в HTML-версии, но и в виде PDF-файлов и версий для печати. Чтобы поисковые системы не анализировали каждый вариант по отдельности и в итоге не ранжировали неправильную версию, рекомендуется использовать канонические ссылки. Как уже упоминалось выше, в зависимости от формата вам может понадобиться интегрировать тег в измененном синтаксисе в HTTP-заголовок.

Совет

Если у вас есть действующий сертификат SSL/TLS, убедитесь, что защищенные HTTPS URL являются каноническими URL и ссылаются на них с незащищенных вариантов (HTTP). То же самое относится и к мобильным или AMP-сайтам — для последних канонические URL даже обязательны.

Различия между каноническими тегами и 301 редиректом

На первый взгляд, тег canonical очень похож на 301 редирект. Это перенаправление, основанное на коде статуса HTTP 301 (Moved Permanently), также сигнализирует поисковым системам, что эти страницы следует анализировать как отдельные версии. Кроме того, редиректы ведут посетителей на исходный URL, в то время как все остальные варианты устраняются. Страницы с каноническими тегами помечаются как копия только для поисковых систем и поэтому остаются доступными для пользователя.

Еще одним отличием является тот факт, что поисковые системы никогда не игнорируют редирект, в то время как это может произойти при использовании метки элемента рекомендуемой ссылки. И последнее, но не менее важное: эти два метода также отличаются по своей функциональности при использовании на нескольких доменах: В то время как 301 редирект переносит страницу с домена A на домен B, тег canonical указывает, что существует только связь с доменом A на домен B.

Канонический тег: распространенные ошибки

Канонический URL является оптимальным решением во многих ситуациях, чтобы избежать дублирования контента на вашем сайте. Ведущие поисковые системы учитывают канонический тег при индексации, понимая, что вы не хотите, чтобы одинаковый или похожий контент был ранжирован. Положительные сигналы поисковых систем объединяются в основном URL, что улучшает их позиционирование. Однако на данном этапе следует отметить, что использование канонических тегов может быстро привести к негативным последствиям, если они неправильно обозначены или неправильно реализованы. В следующих разделах приведены наиболее распространенные ошибки канонических тегов.

Пронумерованные страницы ссылаются на канонический URL-адрес

Чтобы оформить контент в привлекательном виде, многие веб-мастера прибегают к нумерации страниц. Новостные порталы, в частности, используют этот метод, разделяя и нумеруя контент на нескольких страницах. Однако если вы устанавливаете канонические теги для такого контента и ссылаетесь на более поздние страницы с выходным URL с помощью link-rel=»canonical», вы совершаете ошибку: следующие страницы ни в коем случае не являются дубликатами, поэтому уникальный контент не попадает в индекс. Если вы все же хотите дать поисковым системам информацию о выбранной нумерации, есть два целесообразных подхода:

Ставьте ссылку на предыдущую и последующую страницу на каждом URL. Для этого требуется атрибут link, rel, затем замените значение ‘canonical’ на ‘prev’ или ‘next’.
Используя link-rel=»canonical», ссылайтесь на одностраничную версию соответствующего содержания, которая объединяет все пронумерованные страницы.

Относительные URL-адреса не ссылаются на нужную каноническую страницу

Как и большинство HTML-тегов, тег <link> предоставляет возможность указывать абсолютные и относительные URL-адреса. В то время как абсолютные URL описывают весь путь (включая ‘http://’ и т.д.), относительные URL ссылаются на определенную папку на текущем сайте, не требуя полного URL. Например, относительный путь ‘images/image.jpg’ означает, что изображение ‘image.jpg’ можно найти во вложенной папке ‘images’. Однако при использовании тега canonical использование подобных путей быстро приводит к осложнениям, которые могут означать, что краулер в итоге полностью игнорирует тег.

Поэтому в качестве примера Google ссылается на следующее:

< link rel="canonical" href="example.com/cupcake.html" >

Из-за отсутствия HTTP-префикса краулер интерпретирует URL ‘example.com/cupcake.html’ как относительный URL, предполагая, что желаемый канонический URL — ‘http://example.com/example.com/cupcake.html’. В идеале вы всегда должны указывать полный URL при размещении канонического тега или, наоборот, при ссылке на абсолютный URL без домена:

< link rel="canonical" href="/cupcake.html" />

Страницы, ссылающиеся на более чем один канонический URL

Природа канонических URL логически исключает возможность ссылки подстраницы на несколько стандартных сайтов. Подобные множественные ссылки быстро создаются при работе с системой управления контентом или программным обеспечением магазина. Плагины и шаблоны часто используют канонические теги автоматически, даже если вы уже указали канонический URL. Если вы используете подобные расширения, вам также следует проверить исходный текст и при необходимости исправить информацию. В противном случае ваши усилия, скорее всего, окажутся бесплодными, поскольку поисковые системы, скорее всего, будут игнорировать все канонические теги вместо того, чтобы отдавать им предпочтение.

Канонический URL указывается в теле

Элемент link может быть включен в HTML-документ так часто, как это необходимо. Однако необходимым условием функциональности используемых атрибутов является то, что для этого должна использоваться область <head>. Если метка находится в области <body> соответствующей страницы, она остается без какого-либо эффекта. Чтобы избежать проблем при обработке HTML-кода (парсинге HTML), Google также рекомендует, чтобы каноническое указание появлялось как можно раньше в области заголовка.

Отсутствие канонических тегов в мобильной версии

Каждый, кто предлагает мобильную версию своего сайта, так же как и версию для настольных компьютеров, сталкивается с тем, что многое может пойти не так. Даже если страницы могут быть проиндексированы, несмотря на отсутствие информации, вы должны постараться максимально облегчить поисковым системам процесс сбора информации и ее категоризации. Например, Google рекомендует использовать rel=»alternate» в качестве альтернативы, а также устанавливать ссылки с мобильных страниц на URL-адреса настольных компьютеров с помощью тега canonical. Google предоставил руководство с подробными советами и возможными подходами для ‘Mobile Friendly Websites’.

Канонические теги и hreflang противоречат друг другу

Международные веб-проекты с доменами разных стран представляют собой большую проблему для SEO-специалистов. С одной стороны, страницы всех вариантов должны хорошо ранжироваться и показываться соответствующим пользователям; с другой стороны, риск дублирования контента должен быть сведен к минимуму. Одним из важнейших инструментов является атрибут hreflang, который позволяет маркировать отдельные варианты как равнозначные альтернативы. Для этого, однако, необходимо, чтобы эти страницы всегда ссылались обратно на самих себя. Если такие URL-адреса одновременно ссылаются на канонические URL-адреса с помощью канонического тега, это является большим противоречием для поисковых машин.

Это приводит к тому, что поисковая система игнорирует оба сигнала и вместо этого индексирует сайты по другим признакам. Поэтому следует избегать одновременного использования обоих этих указаний.

Факт

Не только сочетание канонических URL и hreflang приводит к противоречиям, которые негативно влияют на рейтинг вашего сайта, но и использование канонических тегов и инструкций типа ‘nofollow’ или ‘noindex’ не сулит Google ничего хорошего.