WDF*IDF: Что на самом деле может сделать чудо-формула SEO?

Борьба за первое место в результатах поиска Google (и других поисковых систем) — это непрекращающаяся битва. Раньше считалось почти SEO-спортом использовать как можно больше ключевых слов в своем контенте, но теперь искусство поисковой оптимизации вращается вокруг создания уникальных текстов. Будь то главная страница, подстраница, страница товара или страница категории вашего сайта: эксклюзивный, релевантный контент, отличающийся по копирайтингу и использованию ключевых слов от аналогичного, является ключевым, когда речь идет о том, чтобы обойти конкурентов и занять первое место в результатах. Термин, который все чаще используется в этом контексте, — это анализ или формула WDF*IDF.

Содержание

Что такое WDF*IDF?
Как определить значение внутридокументной частоты (WDF)
Как определить значение Inverse Document Frequency (IDF)
Как вычисляется количество всех релевантных документов в наборе результатов?
WDF*IDF: Комбинация обеих формул
Преимущества WDF*IDF для оптимизации поисковых систем
Каковы слабые стороны WDF*IDF-анализа?
Обзор преимуществ и недостатков WDF*IDF-анализа
Какие существуют инструменты WDF*IDF?

Что такое WDF*IDF?

WDF*IDF — это метод анализа, который можно использовать в рамках поисковой оптимизации для определения ключевых слов и терминов, которые стабильно повышают релевантность опубликованных текстов и, следовательно, всего сайта. Это формула, в которой перемножаются два значения: внутренняя частота документа (WDF) и обратная частота документа (IDF). В результате получается относительная частота термина (также вес термина) документа по отношению ко всем другим веб-документам, которые также содержат ключевое слово, включенное в анализ. Перед проведением анализа WDF*IDF сначала необходимо определить два упомянутых фактора.

Как определить значение внутридокументной частоты (WDF)

WDF описывает, как часто определенный термин встречается в документе по сравнению со всеми другими терминами, которые в нем содержатся. Для повышения достоверности определяемого значения формула основана на логарифме, что предотвращает слишком большой вес центрального термина. Впервые этот термин был упомянут в 1992 году в работе Донны Харман, в ее статье «Алгоритмы ранжирования» термин WDF упоминается как способ придания словам конкретного документа весового значения, полезного для информационной науки. В оптимизации веб-сайтов значение WDF уже некоторое время используется в качестве альтернативы менее гибкому значению плотности ключевых слов, которое просто отражает относительное обилие ключевого термина.

Формула для определения внутридокументной частоты имеет вид:

Отдельные компоненты этого уравнения можно объяснить следующим образом:

i	Термин, для определения частоты которого вы используете внутридокументную частоту
j	Документ, подлежащий анализу
Lj	Общее количество слов в документе «j»
Freq(i,j)	Частота слова «i» в документе «i»
log2	Логарифм числа x в степени 2

Таким образом, значение WDF для термина «I» в документе «j» определяется путем сложения частоты этого термина и 1 и деления на общее количество слов в этом документе. В обоих значениях используется логарифм «log2», что позволяет получить более значимые результаты для термина, чем при определении чистой плотности ключевых слов или относительной частоты. Это можно проиллюстрировать на примере:

Исследуемый термин, который встречается 50 раз в документе из 1 000 слов, имеет частоту внутри документа 0,57. Относительная частота в данном случае составляет 5 процентов. Если теперь в целях оптимизации увеличить частоту этого термина, скажем, до 500, то значение WDF составит 0,9 (округленно) — то есть значение, которое примерно в 1,5 раза выше, чем в оригинальном тексте. С другой стороны, если вы выберете в качестве основы относительное значение (которое сейчас выросло до 50 процентов), вы увидите увеличение в 10 раз по сравнению с исходным значением.

Как определить значение Inverse Document Frequency (IDF)

Inverse Document Frequency (IDF) — это значение, которое измеряет значение термина не по его частоте в конкретном документе, а по его распространению и использованию по всему тексту документа: чем больше потенциал понятия, тем выше Inverse Document Frequency. Оптимальный случай — это когда термин очень часто встречается всего в нескольких документах. С другой стороны, слова, которые встречаются почти в каждом документе или появляются очень редко, имеют незначительное значение. Например, слово «отпечаток» имеет очень низкое значение IDF, потому что оно используется почти на каждом сайте.

Для вычисления значения обратной частоты документа необходима следующая формула (в ней также используется логарифм для корректировки результатов):

Различные компоненты уравнения IDF можно объяснить следующим образом:

i	Термин, для которого определяется обратная частота документа
log	Логарифм числа x по основанию 10 или по любому другому основанию b
ND	Количество документов в наборе результатов (содержащих соответствующие термины)
fi	Количество документов, в которых встречается термин i

Поэтому, чтобы определить значение IDF для термина «i», разделите общее количество (релевантных) документов, содержащихся в наборах результатов, на количество документов, содержащих этот термин, а затем прибавьте число 1. Наконец, возьмите логарифм «log» от результата этого вычисления.

Как вычисляется количество всех релевантных документов в наборе результатов?

Добавляя N_D означает, что формула IDF не может быть определена единообразно. Вместо этого она является результатом частоты всех значимых слов в исследуемом документе, а также лежащего в основе абсолютного числа документов. Однако при анализе веб-документов для целей SEO потенциальные результаты огромны, поскольку все страницы, проиндексированные Google (или другими поисковыми системами), являются подходящими. Тем не менее, для получения конкретного значения определяется и складывается количество результатов поиска всех релевантных терминов в документе. Например, в сильно упрощенном документе, содержащем только слова «Search Engine Optimization» (17 300 00 результатов поиска, декабрь 2017) и «Web Analytics» (2 200 000 результатов поиска, декабрь 2017), имеет значение N_Dзначение 19 500 000.

WDF*IDF: Комбинация обеих формул

Поскольку Within Document Frequency отражает релевантность термина в рамках конкретного документа, а Inverse Document Frequency может отражать роль термина относительно всех документов результатов поиска, объединение обоих значений позволяет получить глубокое представление о фактической частоте термина и его потенциале для оптимизации существующего текстового контента. Для этого необходимо лишь перемножить оба значения, что приводит к следующей общей формуле для анализа WDF*IDF и помогает определить наиболее точную, пригодную для использования частоту термина:

В принципе, это означает собрать все важные компоненты воедино и использовать их для определения достоверности терминов, используемых в веб-текстах. Конечно, чем больше база данных, тем более значимыми будут результаты. Однако, чтобы сделать анализ WDF*IDF полезным для оптимизации поисковых систем, его необходимо применить ко всем значимым словам в документе. Вручную это было бы слишком сложно сделать, поэтому использование инструмента WDF*IDF является частью любого серьезного репертуара при расчете веса терминов. С одной стороны, эти программы (см. ниже) помогают проанализировать имеющийся текстовый материал. С другой стороны, они также дают подсказки о том, каких понятий не хватает документу, чтобы быть максимально уникальным и релевантным.

Заключение

Частота термина «i» в документе «j» может быть определена путем умножения внутридокументной частоты термина «i» в документе «j» на обратную документальную частоту термина «i» во всем наборе результатов.

Преимущества WDF*IDF для оптимизации поисковых систем

Преимущества комплексного анализа WDF*IDF очевидны: значения, полученные для взвешивания ключевых терминов, служат идеальными ориентирами для написания текстов таким образом, чтобы:

они имели высокую релевантность для поисковых систем
они охватывают темы, в которых нет большой конкуренции
в них не было спама ключевых слов
и были как можно более уникальными.

Каждый, кто недоволен рейтингом своего сайта или стремится к улучшению оптимизации, имеет полезного союзника в виде использования значений WDF*IDF. На основе данных анализа копирайтеры могут разработать конкретные рекомендации по пересмотру своего контента, которые направлены не только на увеличение плотности ключевых слов или включение в текст других ключевых слов.

Заметка

При всей полезности тщательного анализа WDF*IDF никогда не следует забывать, что контент пишется в первую очередь для читателей, а не для поисковых систем. Кроме того, поскольку первые все лучше и лучше воспринимают тексты семантически, в долгосрочной перспективе просто не обойтись без сильного контента, в котором ключевые слова и другие технические дополнения играют лишь незначительную роль.

Каковы слабые стороны WDF*IDF-анализа?

Хотя WDF*IDF дает очень ценные данные для оптимизации сайта, есть несколько проблем, которые следует учитывать перед анализом и оценкой результатов. Например, фундаментальная проблема заключается в том, что WDF*IDF-анализ всегда включает все текстовые элементы документа, будь то заголовки, описания категорий/продуктов или подписи. Дифференциация отдельных компонентов не происходит. Даже если только один абзац слишком насыщен ключевыми словами или содержит слишком мало элементарных терминов, метод анализа не даст удовлетворительного ответа, поскольку частотный вес всегда оценивается для всего документа.

Совет

Прежде чем приступить к анализу WDF*IDF для собственного сайта, необходимо тщательно проверить, подходит ли встроенный контент для метода частотного анализа терминов. Кроме того, следует внимательно изучить полученные результаты, чтобы выявить потенциальные ошибки (например, слишком маленькая база данных), которых следует избегать.

Еще один недостаток формулы WDF*IDF заключается в том, что она становится действительно интересной только при большом количестве слов. Для более коротких отрывков, таких как описания товаров, небольшие записи в блогах или новостные статьи, анализ не дает значимых, пригодных для использования результатов. Именно поэтому он часто не подходит для некоторых сайтов, таких как интернет-магазины или новостные порталы. Для сайтов, которые полагаются на интенсивную редакторскую работу, недостатком является то, что анализ WDF*IDF трудно включить в стандартный рабочий процесс. Поскольку здесь особенно востребованы быстрое время отклика и актуальность, оптимизация текстов после публикации была бы практичным, хотя и сложным решением.

Обзор преимуществ и недостатков WDF*IDF-анализа

Преимущества WDF*IDF-анализа	Недостатки WDF*IDF-анализа
Предоставляет прекрасную возможность выявить существующий спам по ключевым словам	Всегда исследует полное текстовое содержание документа
Делает релевантность и уникальность решающими критериями для взвешивания частоты на первом плане	Не дает информации о специальных абзацах или отрывках, которые стоит оптимизировать
Оценивает термины с низкой конкуренцией лучше, чем термины с высокой конкуренцией	Не подходит для коротких текстов с небольшим количеством слов
Объединяет дисциплины специфического и междисциплинарного анализа документов	Трудно интегрировать в рабочие процессы, в которых приоритет отдается своевременности и оперативности
Сглаживает результаты с помощью логарифмов для получения более значимых результатов	Трудно определить точное количество всех релевантных документов

Какие существуют инструменты WDF*IDF?

Существует несколько инструментов, которые можно использовать для проведения анализа WDF*IDF. Важно различать приложения, которые являются частью SEO-комплекса, и те, которые доступны как самостоятельные решения. В зависимости от набора функций и возможностей использования, отдельные инструменты различаются по стоимости. Чтобы дать краткий обзор разнообразия приложений, мы собрали некоторые из лучших инструментов WDF*IDF в следующем списке:

OnpageDoc: Если вы хотите проанализировать и оптимизировать SEO-статус ваших сайтов, вы можете использовать OnpageDoc, полный пакет от SAC Solutions GmbH из Кельна, Германия. Если вы оформите месячную подписку, то получите доступ к множеству функций для анализа и улучшения ключевых слов, метатегов, обратных ссылок и многого другого. Инструмент WDF*IDF для анализа весовых коэффициентов терминов и целевого сравнения конкурентов также является частью портфолио. Те, кто не хочет получать доступ ко всему пакету, могут бесплатно загрузить инструмент на сайте wdfidf-tool.com. Однако проблема заключается в том, что количество возможных запросов ограничено 100 запросами в час (общими для всех пользователей).
SEOlyze: Семантический анализ и исследования, основанные на принципе WDF*IDF, можно также проводить с помощью платного раздела анализа контента на сайте SEOlyze. Компания Helminger GmbH, расположенная в Австрии, специализируется на помощи клиентам в совершенствовании содержания веб-сайтов и предлагает для этого различные инструменты, такие как инструмент W-questions для исследования, средство проверки дублированного контента или анализ читабельности (формула фактического текста Флеша/Винера). Однако центральным элементом является функция комплексного анализа WDF*IDF, результаты которого могут быть внедрены непосредственно в интерфейс SEOlyze благодаря встроенному редактору. В дополнение к инструменту WDF*IDF пакет SEO включает различные функции отслеживания ранжирования, а также несколько других инструментов для общей оптимизации страницы (анализ ключевых слов, проверка метаданных, изображений, ссылок и т.д.).
XOVI: XOVI, дочерняя компания Plesk с 2017 года, предоставляет своим клиентам набор SEO, который оставляет желать лучшего. Платный пакет инструментов XOVI Toolbox, доступный на нескольких языках, предлагает три различные модели (Pro, Business и Enterprise). Он также включает инструменты для отслеживания рекламы, трафика, ключевых слов, обратных ссылок и социальных сигналов. XOVI TextOptimizer также включает текстовый инструмент WDF*IDF, который не только рассчитывает релевантность используемых терминов и предлагает другие термины на основе первых десяти страниц результатов поиска Google, но и позволяет непосредственно редактировать их.
Seobility: Seobility предлагает множество SEO-инструментов бесплатно на своей домашней странице — например, простой инструмент WDF*IDF. Веб-приложение позволяет пользователям анализировать вес термина на основе формулы WDF*IDF. Кроме того, инструмент воспроизводит другие термины (включая значение частоты), которые соответствуют искомому слову. Доступ к программе Seobility ограничен пятью анализами в день на одного пользователя. Пользователи, создавшие учетную запись, могут получить доступ к расширенным настройкам поиска, чтобы, например, настроить основание логарифма, увеличить количество рассматриваемых результатов поиска или выбрать платформу (настольная/мобильная) для оптимизации.