A/B testování

Máte různé nápady na zlepšení vašeho produktu, třeba zvýšení konverzí, ale nejste si jisti, zda budou fungovat? Vyzkoušejte je v praxi a porovnejte mezi sebou.

A/B testování je metoda, která se využívá pro sledování vlivu změn na chování lidí v rámci určitého měřeného ukazatele. Využívá se toho v případě, kdy chcete zjistit, zda bude mít určitá změna pozitivní dopady na to, čeho chcete dosáhnout.

Představte si to na jednoduchém příkladu. Máte nápady na pojmenování důležitého tlačítka v rámci webu, ale nevíte, který z nich bude nelepší? S tím vám tato metoda pomůže – budete totiž moct v reálném prostředí varianty vyzkoušet a porovnat výsledek se stávajícím stavem. Zjistíte tak, zda dojde k případnému zlepšení požadovaného ukazetele či nikoliv.

Tato metoda se hojně využívá v online prostředí, ale i také ve fyzické světě. V rámci designu ji můžeme využívat pro zjištění, které designová varianta pomůže lépe naplnit byznysové cíle, například konverzní míru. Princip testování funguje tak, že:

  • Se vybrané skupině lidí (návštěvníkům, uživatelům, zákazníkům) přiřadí určitá varianta (varianta A, varianta B, …)
  • Experiment se nechá běžet určitou bodu, dokud se nedosáhne statisticky významnému vzorku
  • Vyhodnotíte výsledky jednotlivých variant a zda došlo ke statisticky významné změně

Můžete tak zjistit, která varianta bude s určitou pravděpodobností fungovat.

Lidem (návštěvníkům, uživatelům, zákazníkům) se vždy náhodně přiřadí určitá varianta.

Bežně to tedy funguje tak, že:

  • Varianta A je současná verze, která slouží jako kontrolní.
  • Varianta B je upravená verze, u které chcete výkon oproti té stávající.

Díky této metodě tak můžete opravdu vidět, jak se lidé chovají a zda díky určité změně dosáhnete zlepšení (nebo zhoršení) vytyčeného měřitelného cíle, jako je například:

  • Určité počty a množství – třeba nákupy, subscriptions, atp.
  • Konverzní míry.

Jednotlivé varianty máte označené, proto na konci vidíte, kolik lidí například nakoupilo produkt A nebo B, respektive kolik lidí mohlo být variantou A nebo B ovlivněno, atp. A tedy i jejich vliv. Poté stačí spočítat potencionálních dopad a můžete se rozhodnout, která varianta je lepší.

U A/B testování je potřeba si uvědomit několik skutečností:

  • Je potřeba mít skutečně reálné designové varianty, které budete moct ověřit. Ať už jde o fyzické produkty nebo webové stránky, budete muset připravit určitou reálnou variantu.
  • Protože jde vlastně o měření chování, dozvíte se konkrétní čísla (třeba výkon), ale nedozvíte se proč se tak děje, proč jsou ta čísla taková a co k danému číslu skutečně přispělo.
  • A/B testování nám nikdy neřekne, zda lidem něco chybí. Řekne nám akorát to, zda je určitá varianta potencionálně lepší nebo horší.
  • Získáte data pouze o prvku, který testujete.
  • Pokud změníte v rámci varianty více prvků, nedozvíte se, který z nich skutečně přispěl k pozitivní, resp. negativní změně. Je proto lepší testovat změny jednotlivě.
  • Testujete s využitím statistických metod, tedy odhadů. Je potřeba si uvědomit, že výsledky nikdy nebudou 100%, pokud nevyužijete celé publikum. (Což je něco, co se typicky nevyplatí, případě ani nedosáhne.)

I když se metoda jmenuje A/B test, klidně můžete do testování zahrnout více variant. Budete ale potřebovat větší vzorek lidí, které do experimentu zahrnete.

Poznámka: Zároveň ze své zkušenosti musím říct, že pro efektivní využití a pochopení je užitečné mít základní znalosti a porozumění statistiky.

Typy testů

A/B testování pro naše designové potřeby poskytuje zároveň několik typů testování, resp. výběru vzorku a zapojení účastníků, konkrétně:

  • Náhodný výběr – účastníky do testu vybíráme naprosto náhodně (případně pouze s omezením určitých kritérií pro odpovídající cílovou skupinu). Hodí se právě v případě, kdy máme hodně dat (například hodně návštěvníků).
  • Párová shoda – účastníky rozdělíme podle určitých klíčových ukazatelů na jednotlivé varianty a porovnáváme dopady. Typicky se používá tam, kde není dostatek dat, resp. kde by bylo zapojení více subjektů velice drahé.
Jak vlastně jednotlivé typy AB testu fungují.

Jak na to

Před samotným řešením testu je potřeba si ujasnit a definovat několik věcí. Primárně jde o to si definovat smysluplnou hypotézu, kterou budeme chtít ověřit. Může to být například:

  • Tlačítko umístěné na viditelnějším místě pomůže k vyšším tržbám
  • Nové pojmenování tlačítka povede k vyšším tržbám
  • Zobrazení doporučených produktů povede k vyšším tržbám

Podle toho poté test postavíte. (Více informací o formulacích hypotéz a výzkumných problémů najdete například na stránce Formulace hypotézy a výzkumného problému).

Určujeme proměnné

Abychom zajistili, že v rámci našeho náhodného experimentu do vybraných variant zahrneme vzorek s co nejvíce podobnými parametry, potřebujeme si nejprve definovat proměnné testu (anglicky variables).

Záleží na tom, co chceme testem zjistit, koho zahrneme, atp. Například u webové stránky, u nichž chcete zvýšit konverzní poměr prodeje členství budete mít proměnné jako:

  • Členství – zda už mají členství zakoupené a případně jaké
  • Typ uživatele – co to je za lidi, odkud jsou, odkud přišli, atp.
  • Návštěva stránky – zajistit, že na objednávku klikli pouze jednou, že šli na určitou stránku, atp.

Stavíme experiment

Když si definujeme naši hypotézu a máme určené i proměnné, je nyní potřeba experiment postavit – tedy konkrétně:

  1. Vytvořit designové varianty
  2. Určit správně vzorek lidí, které do testu zapojíme
  3. Určit správnou distribuci variant

Na co si dát pozor:

  • Nespouštějte v rámci zákaznické cesty více experimentů pro stejnou skupinu lidí. Nebudete totiž moct říct, díky čemu došlo ke zlepšení nebo ke zhoršení. Experimenty se totiž mohou ovlivnit mezi sebou.
  • Měli bychom zajistit, že jeden člověk se nedostane na více variant. Bylo by to pro lidi velice matoucí a mohlo by to znehodnotit výsledky

Kolik lidí je pro experiment potřeba? Pro určení vhodného počtu lidí, které bychom měli do experimentu zapojit budeme potřebovat určit:

Pro lepší představu o populaci si vezměme například experiment, kdy chceme zlepšit konverzní míru prodeje členství na webu. Populací pak budou všichni lidé, kteří členství ještě nemají a odpovídají případným dalším kritériím, které pro členství máme. Z toho pak také budeme počítat reprezentativní vzorek. Více informací najdete například na stránce Populační výběry a reprezentativita nebo na Jak vybrat vzorek respondentů.

Určitě z experimentu chceme odfiltrovat také ty, kteří už do našeho testu nezapadají. Například pokud chceme testovat nějaké věci ohledně nové registrace, musíme odfiltrovat ty, kteří už registraci mají.

Na jak dlouho experiment spustit? Asi neexistuje žádné pravidlo, které by určovalo délku A/B testu. Hodně záleží na tom, co testujeme. Měli bychom se tedy zamyslet nad tím, jak vlastně náš experiment vypadá, jaké jsou jeho proměnné a jak dlouho daná věc trvá. Například:

  • Za jak dlouho typicky od vstupu lidé dokončí nákup?
  • Za jak dlouho lidé typicky projdou danou cestou?

Tyto informace můžete získat z vašich dat a podle toho určit minimální délku experimentu. Pokud ale nasbíráme statisticky významný vzorek, můžeme experiment ukončit dříve. Měli bychom se tomu ale snažit vyhnout, aby nedošlo ke zkreslení dat.

V podstatě vzorek a dobu je potřeba určit vždy tak, aby byla reprezentativní naší populaci.

Počítáme výsledek

Pro správné vyhodnocení A/B testu potřebujeme spočítat dopady s ohledem na velikost vzorku a statistický výběr. U výsledků se nemůžeme dívat pouze na to, zda byl sledovaný indikátor větší nebo menší. Musíme brát v potaz statistické údaje, které nám o výsledku řeknou více – především o pravděpodobnosti toho, že skutečně k takovému výsledku dojde.

Představte si to na následujících příkladech dvou experimentů:

  1. Experiment číslo 1 dosáhl konverzní míry u stávajícího designu (varianta A) hodnoty 3,5 % a u nové případné verze (varianta B) hodnoty 3,95 %.
  2. Experiment číslo 2 dosáhl konverzní míry u stávajícího designu (varianta A) hodnoty 1,97 % a u nové případné verze (varianta B) hodnoty 3,58 %.

Který design byste u jednotlivých experimentů zvolili? Nechali byste někde stávající design nebo vybrali design nový?

Ukázka vizualizace výsledků dvou experimentů.

V tomto případě se pro správné rozhodnutí nemáte dostatek informací. Nevíte, kolik bylo do experimentů a jednotlivých variant zapojeno lidí, s jakou mírou pravděpodobností byl experiment spuštěný, atd. Chybí vám také informace o statistické pravděpodobnosti a intervalu spolehlivosti, které určují právě možné odhady dopadu a rozptylu výsledku.

Pro analýzu výsledku běžných A/B testů (kdy je rozdělení lidí do variant rovnoměrné, tedy 50-50) můžeme využít statistickou metodu T-testu. Tento test nebudu nijak rozebírat, můžete jej v pohodě spočítat v Excelu, který jej má zabudovaný přímo jako funkci. Dovolím si ale pár poznámek k tomuto testu:

  • V rámci testu se počítá tzv. p hodnota (p-value), tedy pravděpodobnost, že rozdíl průměrů bude 0
  • Pokud budeme počítat s pravděpodobností 95 % s p-value bude pod 0,05, tak to indikuje interval spolehlivosti 95 % – takže rozdíl mezi variantami bude statisticky významný
  • Zároveň čím více se bude p-value blížit 0, tím větší bude ve skupinách rozdíl. Pokud ne, budeme potřebovat více dat
  • Tento test je významný hlavně pro malé množství dat = velké rozdíly jsou právě výsledek náhodných proměnných spíš než malá data

Zároveň existuje několik typů T-testu:

  • Jednovýběrový
  • Dvouvýběrový (nepárový)
  • Párový

U náhodných experimentů se typicky předpokládá různá rozdílnost mezi skupinami, proto využíváme dvouvýběrový test. Více informací najdete na stránce Studentův t-test.

Nástroje

Zdroje

Napsat komentář