Ez a tudományos cikk állítja: megbízhatatlan az A/B teszt

Written by Kató Tamás | Jan 22, 2025 5:50:50 AM

Vannak öröknek tűnő igazságok:

Az ég kék, a fű zöld, az A/B tesztelés a marketingben alapvető.

Erre tessék, elénk kerül ez a paper:

„Where A-B Testing Goes Wrong: How Divergent Delivery Affects What Online Experiments Cannot (and Can) Tell You About How Customers Respond to Advertising”

…melyben Michael Braun és Eric M. Schwartz azt állítja, hogy a modern hirdetési platformok (Meta, Google stb.) A/B tesztjei fundamentális okok miatt félrevezetők.

A tudományos cikk összefoglalóját itt olvashatod, a teljes (52 oldalas) papert itt nézheted át.

(Eric Schwartz egyetemi docens a University of Michiganen, nem összekeverendő a Google egykori vezérigazgatójával, Eric Schmidttel)

Kezdjük az elején:

Miért A/B tesztelünk?

Okos marketinges és dörzsölt üzletember tudja: véleménye keveset számít – mert a döntő szót mindig a piac mondja ki.

Melyik hirdetés, kép, szöveg, landing page, célzás, büdzsé, időszak, árazás, [akármi] hatékonyabb?

Ki kell próbálni és kiderül – szól az elmélet.

A gyakorlatban viszont sok minden félremehet egy teszt során, például:

Nem reprezentatív a minta a célcsoportodra.
Az eredmény nem skálázható valamilyen okból.
A teszted nem tudja modellezni a tényleges kampány körülményeit. (Pl. hogyan fognak viselkedni a vásárlóid a karácsonyi kampányban? Ezt egy októberi időszakban nem tudod kideríteni.)
Nem elég nagy a piacod ahhoz, hogy egy-egy teszteddel szignifikáns eredményt kapj. (Pl. az egész országban van 600 olyan cég, amely potenciális viszonteladód lehet.)
Nem 1 változót vizsgál a teszted (így nem tudod, hogy az esetlegesen kijövő különbséget mi okozhatta).

A rosszul felépített teszt – 🡨 ez itt a kulcsszó – veszélye, hogy úgy hozol döntést, hogy azt hiszed, hogy adatok alapján döntesz, valójában viszont egy túlbonyolított pénzfeldobás bizonyosságát (vagy inkább bizonytalanságát) kaptad.

Azt gondolhatnánk, hogy ha egy hirdetési platform beépített tesztjeit használjuk… és nem állítjuk el látványosan az értékeket (pl. túl kicsi célcsoport)… akkor jól felépített teszt fut le, amelynek végén megbízható adatokat kapunk.

Nos:

A „divergent delivery” rontja el a jókedvemet – és az A/B teszteket

A modern hirdetési platformoknál már nem médiafelületet vásárolsz (amelyhez tartozik a közönség), hanem közönséget és kampánycélt (amelyhez tartozik a médiafelület). A platform fejlett algoritmusaival és rengeteg adattal állapítja meg, hogy mikor kinek milyen hirdetést mutasson azért, hogy a kampánycéljaid minél hatékonyabban teljesüljenek.

A relevanciát felhasználói szinten számítják, tehát ha mindketten egy biciklis bolt célcsoportjába tartozunk, de én mountain bike-os videókat nézek YouTube-on, te viszont az országútis versenyekről olvasgatsz, akkor ugyanannak a cégnek más hirdetései lesznek számunkra relevánsak.

A megjelenítésbe beleszámító faktorok egy része tudott vagy feltételezett (pl. az előző bekezdésben tárgyalt tartalomfogyasztás), jelentős részük viszont üzleti titok. A hirdetésmegjelenítési algoritmus jelentős része számunkra egy fekete doboz.

Ebből következik az, hogy a hirdetésmegjelenítés nem véletlenszerű (a választott célcsoporton belül), hanem relevancia által súlyozott – ezt a torzítást hívják a szerzők „divergent deliverynek”.

A cikk egyik ábrája segít elképzelni:

Tegyük fel, hogy a cégünk számára az itt szürkével jelölt emberek (pöttyök) szinte egyáltalán nem relevánsak, a zöld és piros emberek enyhén, a sárgák pedig erősen a célcsoportunkba tartoznak.

Egy A/B tesztnél arra számítasz, hogy az „A” és a „B” hirdetésedet ugyanaz a „merítés” látja (jobb kép). Valójában a platform „fekete doboza” úgy gondolja, hogy az „A” hirdetésed és a „B” hirdetésed a célcsoportod más-más részének relevánsabb, ezért eszerint súlyozza (bal kép).

A divergent delivery miatt a tesztjeid eredményénél nem tudhatod, hogy másnak e tájék mennyiben okozta a különbséget a vizsgált elem (pl. hirdetési kreatív) – és mennyiben a „fekete doboz”. Van egy új változód minden tesztben.

Ki lehet zárni valahogy ezt a torzítást?

Röviden: jelenleg nem.

Na de később lesz-e erre lehetőség? Számítsunk arra, hogy a hirdetési platformok valamikor bevezetik az opciót, hogy a tesztek során valóban véletlenszerű legyen a megjelenítés?

Erre 3 okból is kicsi az esély:

Ezek elsősorban hirdetési felületek, ahol még a tesztelés is azt szolgálja, hogy hatékonyabban hirdess (és nem azt, hogy a teszteredményeket tudományos szigorral kapd meg).
Akkora az opportunity costja a relevanciát kizáró megjelenítésnek, hogy már a tesztben sem éri meg engedélyezni (másik probléma, hogy ha a kampány során visszakapcsolod a relevancia alapú targetálást, akkor valójában nem kampánykörülményekben tesztelsz, lásd a levél elején a 3-as pontot)
Talán nem is lehetséges a kikapcsolása. Annyira integráns része a megjelenítésnek a relevancia mint faktor, hogy a megjelenítési algoritmus komoly „csonkolása” nélkül nem lehet kikapcsolni – ha meg sikerülne, akkor meg egy egészen más terméket és működést kapsz (ismét a fönti 3-as pont).

Jelenleg nem ismerünk olyan tesztfelépítést (sem én, sem a cikk szerzői), amellyel a platformon belüli divergent delivery kiszűrhető egy-egy tesztből. (Ha ismersz ilyet, írd meg nekem, és egy hírlevélben közkinccsé teszem és lehivatkozlak.)

Akkor most mi legyen?

Baj, hogy a hirdetési platformokon folytatott A/B tesztjeinkből nem tudjuk kiszűrni a „fekete doboz” hatását?

Nem feltétlenül.

A hirdetők többsége jobb kampányokat szeretne, nem pedig cikkeket publikálni tudományos folyóiratokba. Ha a hatékonyságot nem sérti (sőt: akár javítja), akkor a divergent delivery nekünk nem probléma – hanem egy olyan jelenség, amiről tudnunk kell.

Lehet érvelni amellett is, hogy a hirdetések elválaszthatatlan része a célzás – elvégre a szöveg megírásakor, a kép elkészítésekor, a koncepció összeállításakor is figyelembe veszed, hogy a célcsoportod mire vágyhat. A hirdetési platform algoritmusa „csak” annyit tesz hozzá, hogy a célcsoportodon belül is megkeresi a hirdetés (várhatóan) legjobb közönségét.

A szerzők ezzel az ábrával segítenek dönteni:

Vagyis ha egy tesztben nem célod szétválasztani a hirdetési kreatívot és a célzást (1. döntés) ÉS a teszt során beállított célcsoportodnak nem kell a teljes, kampány alatt használt célközönségre reprezentatívnak lennie (2. döntés), akkor a platformok tesztjeit nyugodtan használhatod arra, hogy hatékonyabb hirdetésekhez juss.

Aggodalomra semmi ok, az eszközök sem törtek el, az A/B tesztelést sem kell kihajítani – egyszerűen arról van szó, hogy tudnod kell, hogy egy teszt során egy adott felületen mit tudhatsz meg az eredményből, és mit nem.

– Kató Tamás

Megköszönöm, ha ezt a cikk átküldöd egy olyan embernek, aki sokat hirdet Google Adsen ésvagy Facebookon. Szerintem ez fontos szakmai hír, amiről érdemes tudnia.

View full post