Vannak öröknek tűnő igazságok:
Az ég kék, a fű zöld, az A/B tesztelés a marketingben alapvető.
Erre tessék, elénk kerül ez a paper:
„Where A-B Testing Goes Wrong: How Divergent Delivery Affects What Online Experiments Cannot (and Can) Tell You About How Customers Respond to Advertising”
…melyben Michael Braun és Eric M. Schwartz azt állítja, hogy a modern hirdetési platformok (Meta, Google stb.) A/B tesztjei fundamentális okok miatt félrevezetők.
A tudományos cikk összefoglalóját itt olvashatod, a teljes (52 oldalas) papert itt nézheted át.
(Eric Schwartz egyetemi docens a University of Michiganen, nem összekeverendő a Google egykori vezérigazgatójával, Eric Schmidttel)
Kezdjük az elején:
Okos marketinges és dörzsölt üzletember tudja: véleménye keveset számít – mert a döntő szót mindig a piac mondja ki.
Melyik hirdetés, kép, szöveg, landing page, célzás, büdzsé, időszak, árazás, [akármi] hatékonyabb?
Ki kell próbálni és kiderül – szól az elmélet.
A gyakorlatban viszont sok minden félremehet egy teszt során, például:
A rosszul felépített teszt – 🡨 ez itt a kulcsszó – veszélye, hogy úgy hozol döntést, hogy azt hiszed, hogy adatok alapján döntesz, valójában viszont egy túlbonyolított pénzfeldobás bizonyosságát (vagy inkább bizonytalanságát) kaptad.
Azt gondolhatnánk, hogy ha egy hirdetési platform beépített tesztjeit használjuk… és nem állítjuk el látványosan az értékeket (pl. túl kicsi célcsoport)… akkor jól felépített teszt fut le, amelynek végén megbízható adatokat kapunk.
Nos:
A „divergent delivery” rontja el a jókedvemet – és az A/B teszteket
A modern hirdetési platformoknál már nem médiafelületet vásárolsz (amelyhez tartozik a közönség), hanem közönséget és kampánycélt (amelyhez tartozik a médiafelület). A platform fejlett algoritmusaival és rengeteg adattal állapítja meg, hogy mikor kinek milyen hirdetést mutasson azért, hogy a kampánycéljaid minél hatékonyabban teljesüljenek.
A relevanciát felhasználói szinten számítják, tehát ha mindketten egy biciklis bolt célcsoportjába tartozunk, de én mountain bike-os videókat nézek YouTube-on, te viszont az országútis versenyekről olvasgatsz, akkor ugyanannak a cégnek más hirdetései lesznek számunkra relevánsak.
A megjelenítésbe beleszámító faktorok egy része tudott vagy feltételezett (pl. az előző bekezdésben tárgyalt tartalomfogyasztás), jelentős részük viszont üzleti titok. A hirdetésmegjelenítési algoritmus jelentős része számunkra egy fekete doboz.
Ebből következik az, hogy a hirdetésmegjelenítés nem véletlenszerű (a választott célcsoporton belül), hanem relevancia által súlyozott – ezt a torzítást hívják a szerzők „divergent deliverynek”.
A cikk egyik ábrája segít elképzelni:
Tegyük fel, hogy a cégünk számára az itt szürkével jelölt emberek (pöttyök) szinte egyáltalán nem relevánsak, a zöld és piros emberek enyhén, a sárgák pedig erősen a célcsoportunkba tartoznak.
Egy A/B tesztnél arra számítasz, hogy az „A” és a „B” hirdetésedet ugyanaz a „merítés” látja (jobb kép). Valójában a platform „fekete doboza” úgy gondolja, hogy az „A” hirdetésed és a „B” hirdetésed a célcsoportod más-más részének relevánsabb, ezért eszerint súlyozza (bal kép).
A divergent delivery miatt a tesztjeid eredményénél nem tudhatod, hogy másnak e tájék mennyiben okozta a különbséget a vizsgált elem (pl. hirdetési kreatív) – és mennyiben a „fekete doboz”. Van egy új változód minden tesztben.
Röviden: jelenleg nem.
Na de később lesz-e erre lehetőség? Számítsunk arra, hogy a hirdetési platformok valamikor bevezetik az opciót, hogy a tesztek során valóban véletlenszerű legyen a megjelenítés?
Erre 3 okból is kicsi az esély:
Jelenleg nem ismerünk olyan tesztfelépítést (sem én, sem a cikk szerzői), amellyel a platformon belüli divergent delivery kiszűrhető egy-egy tesztből. (Ha ismersz ilyet, írd meg nekem, és egy hírlevélben közkinccsé teszem és lehivatkozlak.)
Baj, hogy a hirdetési platformokon folytatott A/B tesztjeinkből nem tudjuk kiszűrni a „fekete doboz” hatását?
Nem feltétlenül.
A hirdetők többsége jobb kampányokat szeretne, nem pedig cikkeket publikálni tudományos folyóiratokba. Ha a hatékonyságot nem sérti (sőt: akár javítja), akkor a divergent delivery nekünk nem probléma – hanem egy olyan jelenség, amiről tudnunk kell.
Lehet érvelni amellett is, hogy a hirdetések elválaszthatatlan része a célzás – elvégre a szöveg megírásakor, a kép elkészítésekor, a koncepció összeállításakor is figyelembe veszed, hogy a célcsoportod mire vágyhat. A hirdetési platform algoritmusa „csak” annyit tesz hozzá, hogy a célcsoportodon belül is megkeresi a hirdetés (várhatóan) legjobb közönségét.
A szerzők ezzel az ábrával segítenek dönteni:
Vagyis ha egy tesztben nem célod szétválasztani a hirdetési kreatívot és a célzást (1. döntés) ÉS a teszt során beállított célcsoportodnak nem kell a teljes, kampány alatt használt célközönségre reprezentatívnak lennie (2. döntés), akkor a platformok tesztjeit nyugodtan használhatod arra, hogy hatékonyabb hirdetésekhez juss.
Aggodalomra semmi ok, az eszközök sem törtek el, az A/B tesztelést sem kell kihajítani – egyszerűen arról van szó, hogy tudnod kell, hogy egy teszt során egy adott felületen mit tudhatsz meg az eredményből, és mit nem.
– Kató Tamás