Проблемы со статистикой и другие препятствия при проведении А/Б-тестирования

Тестирование функциональности различных элементов с помощью A/B-тестов сегодня является обычной практикой для большинства разработчиков и операторов веб-сайтов. При наличии достаточного трафика эта процедура тестирования быстро показывает, является ли сценарий А более успешным, чем сценарий Б. Существует множество препятствий, с которыми можно столкнуться как на этапе планирования, так и на этапе тестирования и окончательной оценки. Вот наиболее распространенные статистические ошибки и то, как их можно избежать:

Самые большие ошибки при планировании A/B-тестирования

Еще до того, как вы начали тестирование, вы, возможно, уже настроились на неудачу, если вы сделали предположения и ваша установка основана на них.

Ошибка 1: отказ от гипотезы и игра на слух

Вероятно, худшая ошибка, которую можно совершить на этапе подготовки, — это отказ от гипотезы и надежда на то, что один из тестируемых вариантов окажется правильным. Хотя количество случайно выбранных вариантов тестирования также увеличивает шанс найти победителя, существует также вероятность того, что этот победитель не поможет улучшить веб-проект. Используя один вариант, вы заметите значительную оптимизацию в 5 процентах случаев, хотя на самом деле никакой оптимизации не произошло. Чем больше вариантов используется, тем больше вероятность возникновения альфа-ошибки — вероятность 14% при использовании 3 различных тестовых объектов и 34% при использовании 8 различных вариантов. Если вы не определитесь с гипотезой заранее, вы не будете знать, за какую оптимизацию отвечает победитель. Если вы определитесь с гипотезой, что увеличение кнопки приведет к увеличению конверсий, вы сможете классифицировать последующий результат.

Подводя итог, можно сказать, что A/B тестирование ни в коем случае не определяется случайностью, скорее вы всегда должны руководствоваться гипотезами и ограниченным количеством вариантов. Если вы также работаете с такими инструментами, как Optimizely, которые предотвращают увеличение количества ошибок, ничто не будет стоять на пути к успешному тестированию.

Ошибка 2: определение неверных показателей успешности тестового варианта

Ключевые показатели эффективности (KPI), которые являются ключевыми для вашего проекта, также играют важную роль в A/B-тестировании, и ими не стоит пренебрегать. Хотя увеличение просмотров страниц и кликов на блогах или новостных порталах уже диктует ценные конверсии, для интернет-магазинов эти факторы — не более чем положительная тенденция. Ключевые показатели, такие как заказы, возвраты, продажи или прибыль, значительно важнее для магазинов. Поскольку их трудно измерить, A/B-тесты, в которых основной KPI рассчитывается как абсолютная прибыль, требуют много усилий. В свою очередь, они могут предсказать успех гораздо легче, чем тесты, которые учитывают только то, был ли товар помещен в корзину. Это связано с тем, что покупатель может даже не купить товар в корзине.

Поэтому важно найти подходящие значения. Однако не стоит выбирать слишком много разных. Ограничьтесь существенными факторами и помните о предопределенной гипотезе. Это снижает риск предположить, что произойдет длительное увеличение, хотя на самом деле это просто случайное увеличение без длительного эффекта.

Ошибка 3: категорическое исключение многомерного тестирования

В некоторых случаях при подготовке A/B-тестов вы можете захотеть протестировать несколько элементов в вариантах. Это невозможно сделать с помощью простого A/B-теста, поэтому в качестве альтернативы используется многомерное тестирование. Эта концепция часто отвергается, поскольку многомерные тесты считаются слишком сложными и неточными, хотя при правильном использовании они могли бы стать оптимальным решением вышеупомянутой проблемы. С помощью правильных инструментов различные тестовые страницы не только быстро меняются, но и легко анализируются. Немного попрактиковавшись, вы сможете определить разницу, которую вносит тот или иной индивидуально измененный компонент, но для этого ваш веб-проект должен иметь достаточную посещаемость.

Шанс объявить неправильного победителя возрастает с увеличением количества используемых вариантов теста — поэтому при использовании этого метода рекомендуется ограничиться предварительным отбором. Чтобы быть уверенным в том, что потенциально лучшая версия действительно превосходит оригинал, можно проверить результат в ретроспективе с помощью А/Б-теста. Однако вероятность возникновения альфа-ошибки все равно составляет 5%.

Статистические проблемы в процессе тестирования

Если тестирование проводится в режиме онлайн и все необходимые данные записаны как надо, было бы справедливо полагать, что ничто больше не стоит на пути успешного А/Б-тестирования. Нетерпение и неверные оценки часто означают, что это не так, поэтому убедитесь, что вы избегаете этих типичных ошибок.

Ошибка 4: слишком преждевременное прекращение процесса тестирования

Возможность ознакомиться с подробной статистикой во время тестирования оказывается очень полезной, но это часто приводит к преждевременным выводам, а в крайних случаях пользователи даже прекращают тестирование слишком рано. В принципе, для каждого теста требуется минимальный размер теста, поскольку в начале результаты обычно сильно различаются. Кроме того, чем дольше длится этап тестирования, тем выше достоверность, так как случайные значения становятся заметны и могут быть исключены. Если вы прекратите тестирование слишком рано, вы рискуете получить совершенно неверное представление о том, как работает вариант, а затем классифицировать его как гораздо лучший или худший, чем он есть на самом деле.

Поскольку определить оптимальное время тестирования не так просто, существуют различные инструменты, такие как калькулятор продолжительности A/B-тестирования от VWO, которые могут помочь вам в расчетах. Конечно, существуют очень веские причины для преждевременного завершения тестирования, например, когда вариант показывает плохие результаты и может поставить под угрозу ваши экономические интересы.

Ошибка 5: использование современных процессов тестирования для сокращения его продолжительности

Не секрет, что в различных А/Б тестах используются методы, помогающие сохранить как можно более низкий уровень ошибок среди используемых вариантов. Байесовский метод, который используется Optimizely и Visual Website Optimizer, обещает результаты тестирования, даже если минимальный размер теста еще не достигнут. Если вы используете для оценки результаты, полученные на ранней стадии, вы можете столкнуться со статистическими проблемами. С одной стороны, этот метод основан на ваших оценках относительно успешности варианта, а с другой стороны, метод Байеса не может определить начальные значения как таковые.

Распространенные ошибки при анализе результатов A/B-тестирования

Найти подходящие KPI, сформулировать гипотезы, а в конечном итоге организовать и провести A/B-тестирование — непростая задача. Однако настоящий вызов ожидает вас, когда дело доходит до анализа собранных значений и их использования для повышения успешности вашего веб-проекта. Именно в этой части даже профессионалы могут совершать ошибки, но, по крайней мере, убедитесь, что вы избежите тех ошибок, которых легко избежать, например, таких:

Ошибка 6: полагаться только на результаты инструмента тестирования

Инструмент тестирования не просто помогает вам запустить тест и визуализировать собранные данные, но и предоставляет подробную информацию о том, улучшил ли вариант ситуацию и насколько это повлияет на коэффициент конверсии. Кроме того, вариант объявляется победителем. Эти инструменты не могут измерять такие KPI, как абсолютные продажи или возвраты, поэтому вам придется подключить соответствующие внешние данные. Если результаты не соответствуют вашим ожиданиям, возможно, стоит взглянуть на отдельные результаты вашей программы веб-анализа, которая обычно дает гораздо более подробный обзор поведения пользователей.

Проверка отдельных данных — единственный способ выявить неправомерные значения и отфильтровать их из общего результата. Следующий пример иллюстрирует, почему это может быть очень решающим критерием для того, чтобы избежать ошибочного предположения: инструмент показал, что вариант А является оптимальным, поскольку он достиг наилучших результатов. Однако при ближайшем рассмотрении выясняется, что это связано с покупкой одного пользователя, который оказался клиентом B2B. Если убрать эту покупку из статистики, то вариант B неожиданно покажет наилучший результат.

Тот же пример можно применить к корзине, количеству заказов или другим KPI. В каждом из этих случаев вы заметите, что экстремальные значения могут сильно влиять на среднее значение и что из этого могут быстро возникнуть ложные выводы.

Ошибка 7: слишком сильное сегментирование результатов

Детальная проверка данных A/B-тестирования в сочетании с внешними источниками данных открывает гораздо больше возможностей. Особенно часто результаты относят к индивидуально определенным группам пользователей. Так можно узнать, как пользователи определенной возрастной группы, конкретного региона или конкретного браузера отреагировали на определенный вариант. Проблема в том, что чем больше сегментов вы сравниваете, тем выше вероятность ошибки.

По этой причине вы должны убедиться, что выбранные группы имеют высокую релевантность для концепции вашего теста и составляют репрезентативную часть всех пользователей. Например, если вы исследуете только группу мужчин в возрасте до 30 лет, которые заходят на ваш сайт через планшет и посещают его только по выходным, вы охватите тестом не всю аудиторию. Если вы планируете заранее сегментировать результаты A/B-теста, вам также следует установить соответствующий длительный период тестирования.

Ошибка 8: сомнение в успехе из-за нечетких расчетов

Чтобы проиллюстрировать, в какой степени переход на новый вариант повлияет на будущий коэффициент конверсии, результаты A/B-тестов часто используются в качестве основы для конкретных расчетов. Это может быть эффективным средством для целей презентации, но прогнозы на будущее не совсем практичны из-за различных влияний. В то время как результаты A/B-тестов дают информацию только о краткосрочных изменениях в поведении пользователей, долгосрочные эффекты, такие как влияние на удовлетворенность клиентов, не поддаются измерению в течение короткого периода тестирования — предположение о постоянстве определенного роста преждевременно. Кроме того, существуют такие факторы влияния, как сезонные колебания, дефицит поставок, изменения в ассортименте продукции, изменения в клиентской базе или технические проблемы, которые невозможно учесть в A/B-тестировании.

При проведении и анализе юзабилити-тестирования сайта важно сохранять спокойствие в отношении статистических проблем и неверных предположений. Слишком ранние выводы могут привести к тому, что вы будете разочарованы последующими результатами в реальном времени, даже если оптимизированная версия вашего проекта на самом деле работает достаточно хорошо. Только когда вы сформулируете прогноз на будущее, а также чистый и продуманный метод работы при проведении анализа, вы сможете правильно оценить и интерпретировать результаты A/B-тестирования.

Оцените статью
cdelat.ru
Добавить комментарий