Добыча данных: методы анализа больших данных

Данные играют фундаментальную роль в секторе электронной коммерции. Чтобы оптимизировать процессы продаж, многие интернет-магазины усердно занимаются сбором данных. С помощью инструментов анализа они собирают цифры и значения о поведении покупателей, товарах и информации о корзине. Но сам по себе обширный сбор данных не дает онлайн-бизнесу никакой дополнительной ценности. Те, кто стремится оптимизировать методы продаж и увеличить прибыль, должны уметь оперативно оценивать информацию. Именно здесь на помощь приходит аналитический подход, называемый добычей данных.

Что такое добыча данных?

Для того чтобы выработать определение понятия «добыча данных», полезно разделить представление и подход, которые описывает этот термин. Если рассматривать результаты работы инструментов отслеживания посетителей в Интернете как бесполезную на первый взгляд кучу данных, то добыча данных предлагает решение. Это предполагает использование необходимых инструментов для работы с собранными данными и извлечения нужной информации. Однако в отличие от реальных операций по добыче данных, здесь используются статистические методы, позволяющие выявить тенденции и другие взаимосвязи. 

Добыча данных считается одним из этапов процесса обнаружения знаний в базах данных (KDD), который состоит из следующих процессов:

  • Выбор базы данных
  • предварительная обработка с целью очистки данных
  • Преобразование данных в форму, необходимую для выбранного метода анализа
  • Процесс анализа с помощью математических процессов
  • Интерпретация результатов анализа

В конечном итоге, выводы, полученные с помощью KDD, могут быть включены в стратегический фокус интернет-магазина и маркетинговые решения. Кроме того, области применения, в которых могут быть использованы эти выводы, также весьма разнообразны.

Применение интеллектуального анализа данных

Добыча данных дает возможность оптимизировать электронную коммерцию на научной основе. Здесь накопленные большие массивы данных служат основой для объяснений и прогнозов. Статистически подготовленные и четко визуализированные, эти методы позволяют операторам интернет-магазинов определить важные факторы, необходимые для успешного онлайн-бизнеса. С этой целью анализ данных используется для того, чтобы:

  • Разделить рынки на сегменты
  • Анализировать данные корзины покупок
  • Создавать профили потребителей
  • Устанавливать прогнозы по срокам контрактов
  • Анализировать спрос
  • Выявлять ошибки в процессе покупки

Методы интеллектуального анализа данных

Для того чтобы иметь возможность извлекать необходимую бизнес-информацию из больших массивов данных, было разработано множество методов, основанных на выявлении важных взаимосвязей, закономерностей и тенденций. Эти методы также могут быть использованы для статистических процессов.

  • Обнаружение выбросов: экстремальные значения, выделяющиеся на фоне остальных данных, называются выбросами. При добыче данных обнаружение выбросов используется для выявления нетипичных наборов данных. На практике эти методы поиска данных могут, например, выявить мошенничество с кредитными картами, раскрывая подозрительные транзакции.
  • Кластерный анализ: под кластерами понимается группа объектов, которые тем или иным образом похожи друг на друга. Цель этого анализа — сегментировать неструктурированные данные. Для этого используются алгоритмы поиска сходства в структурах больших наборов данных с целью выявления новых кластеров. В отличие от процесса классификации (см. ниже), кластерный анализ направлен на выявление новых возможностей для создания групп. В тех случаях, когда набор данных не может быть отнесен ни к одному кластеру, он может быть интерпретирован как выброс. Классическое применение кластерного анализа заключается в определении групп пользователей.
  • Классификация: если кластерный анализ направлен в первую очередь на выявление новых групп, то классификация предполагает использование заранее определенных классов. Их выделение происходит с помощью сопоставления характеристик из набора данных. Дерево решений представляет собой распространенный метод автоматической классификации данных. Для каждого узла вызывается свойство объекта. Наличие этого свойства определяет выбор следующего узла. Для целей электронной коммерции этот процесс может быть использован для разделения клиентов на различные сегменты.
  • Анализ ассоциаций: анализ ассоциаций направлен на выявление взаимосвязей в наборах данных, которые могут быть сформулированы в виде правил вывода. Когда речь идет об электронной коммерции, эти методы поиска данных можно использовать для выявления взаимосвязи отдельных продуктов в корзинах покупок по схеме «если куплен продукт А, то будет куплен и продукт В».
  • Регрессионный анализ: регрессионный анализ помогает создать модели, которые объясняют зависимые переменные через различные независимые переменные. На практике это означает, что прогноз эффективности продаж продукта может быть создан путем соотнесения цены продукта и среднего уровня дохода покупателя в регрессионной модели. 

Пределы добычи данных

При добыче данных используются статистические процедуры, позволяющие провести принципиально объективный анализ имеющихся наборов данных. Однако довольно субъективный характер выбора метода анализа (а также различных алгоритмов и параметров) с намерением достичь конкретных целей может привести к фальсификации результатов. Таких последствий можно избежать, если передать процессы анализа данных внешним поставщикам услуг.

Одним из наиболее важных факторов, влияющих на качество данных, полученных в результате интеллектуального анализа данных, является качество основы данных. Репрезентативные результаты могут быть получены только на основе репрезентативных данных. По этой причине поиск данных обычно требует предварительной обработки наборов данных; это позволяет устранить недостающие значения и смещения.

Наконец, важно отметить, что поиск данных дает результаты только в виде закономерностей и перекрестных связей. Ответы могут быть получены только тогда, когда результаты анализа интерпретируются в соответствии с предыдущими вопросами и целями.

Оцените статью
cdelat.ru
Добавить комментарий