Klassiske fejl når man split-tester

Senest opdateret:

Oprindeligt udgivet:

januar 2010

Som med alt muligt andet, så er der også risiko for fejl når man arbejder med split-tests. Det er nemt at overse faldgruberne når musikken spiller, og det betyder desværre nogle gange, at resultatet af eksperimenterne enten ikke giver det forventede boost over tid, eller måske endda direkte skader din forretning.

Case 1: Billeder

Du tester en knap med et billede af en person og en knap uden. Knappen uden billede konverterer bedst. Du konkluderer, at knapper uden billede konverterer bedre, og rykker videre til næste eksperiment.

Fejlen: Kunne andre billeder have givet andre resultater?

Ja, du har bevist, at af de to knapper, konverterede den uden billedet bedst, men hvad nu, hvis du havde:

brugt et andet billede?
Af samme person?
Af en anden person?
Måske et andet køn?
Hvad nu, hvis personen kigger en anden retning?
Eller måske er en karrikeret tegning bedre?
Var billedet et overpænt stock photo, eller var det et mere normalt billede af en ansat?

Der er rigelig med faldgruber når man arbejder med billeder — lad være med at falde i dem 😉

Case 2: For mange elementer

Du har masser af idéer, du gerne vil teste på dit website, og derfor bruger du en masse tid på at sætte en stor test op. Testen gør brug af mange elementer, og hvert element har mange forskellige varianter, du vil teste. Målet er, at få den mest optimale side mdash; optimeret af dine besøgende.

Fejlen: Eksperimentet kan i realiteten aldrig afsluttes

På et teoretisk plan er det en rigtig god idé, at teste alle tænkelige parametre på din hjemmeside. Desværre er det bare sjældent muligt at gennemføre en sådan test — med mindre du har ekstremt mange besøgende på din side.

Forestil dig, at du har 10 elementer på dit site, som du gerne vil teste sammen, og i mange varianter, fx 10 varianter af hvert element. Det giver følgende regnestykke:

10 elementer á 10 varianter = 10¹⁰ = 10x10x10x10x10x10x10x10x10x10 = 10.000.000.000

Det er 10 milliarder kombinationer! Og hvis du vil have bare nogenlunde valide resultater, skal hver kombination have minimum 100 konverteringer. Det betyder altså, at du skal have 1.000.000.000.000 — 1 billion — konverteringer, før du kan stole på resultatet.

Selv med en høj konverteringsrate på 50%, vil det kræve ufattelige mængder trafik, før du vil kunne bruge eksperimentet til noget som helst. De helt store forsøg er til sites som Google.com og lignende.

Istedet skal du koncentrere dig om, at fokusere på de vigtigste elementer, og samtidig bruge tid på at udvikle kvalificerede variationer.

Case 3: Ingen tålmodighed

Dit eksperiment har netop fundet frem til et vinder, og du skynder dig at implementere den vindende variation. Over tid opdager du, at du faktisk har færre konverteringer end før, eller ihvertfald er den lovede konverteringsstigning ikke så høj, som eksperimentet lovede.

Fejlen: Du afslutter eksperimentet før tid, hvilket giver nytteløse resultater

Du er så forhippet på at implementere resultatet fra dit eksperiment, at du implementerer det før resultatet er troværdigt. Mange ting kan nå at ændre sig, inden eksperimentet er statistisk validt, og det er her, det bliver farligt. Det svarer lidt til, at du efter 10 besøgende med 1 konvertering konkluderer, at 10% af dine besøgende konverterer — det kan sagtens være, at de næste 90 besøgende ikke konverterer, og så er den reelle konverteringsrate pludselig ikke længere 10%, men kun 1%.

Bare fordi dit eksperiment viser et indledende resultat (i Google Website Optimizer vises det efter 5 konverteringer,) betyder det ikke, at det resultat holder over tid. Tallet er et øjebliksbillede, der er gældende indtil næste opdatering, og for at resultatet skal kunne bruges til noget som helst, skal det have data — masser af data.

Jo flere data, du “hælder” i eksperimentet, jo mindre bliver udsvinget (og dermed fejlmarginen) ved hver nye besøgende/konvertering.

Case 4: For små ændringer testes for tidligt

Du har en idé til en række eksperimenter, der måske, måske ikke kan hæve din konverteringsrate — der er tale om små ændringer i menustrukturen, i formateringen af teksten, små farveforskelle i gradients og lignende.

Fejlen: Du fokuserer på detaljerne, men misser de store forbedringer

Med mindre du har eksperimenteret i flere år, og har en meget høj konverteringsrate allerede, så se bort fra dem. Brug i stedet tid på store ændringer:

Rokér rundt på elementerne på siden.
Prøv en anden type navigation.
Lav et komplet redesign af dit site.
Test kraftige, klare farver vs. afdæmpede, neutrale farver.
Lav markant anderledes call-to-action elementer.
Tilføj/fjern elementer fra designet.
Test store forandringer!

Når du har testet de store ændringer er det tid til at teste de små finesser i vindervariationen — først da. Ellers ender du med at gå glip af de store gevinster.

Var denne side hjælpsom?
Ja Nej

Comments

4 svar til “Klassiske fejl når man split-tester”

januar 2010

Jacob Kildebogaard

Godt ramt Michael.

Specielt punkt 3 rammer mange. I større virksomheder bliver man åndet i nakken af projektledere, chefen, kollegaen, og næsten selv konen synes man kører den test for længe. Men nej, der SKAL tålmodighed til.

En anden ting ift. tålmodighed er at man bør have hele uger, så det er repræsentativt for hele ugen. Dvs. så man både har hverdag og weekend med. Det sikrer et langt mere korrekt resultat end en test der lires af på en onsdag.

Loading…

Svar
1. januar 2010
  
  Michael Kjeldsen
  
  God pointe med at køre over hele uger, Jacob. Det giver helt sikkert et mere “klippefast” grundlag at basere eksperimentet på!
  
  Loading…
  
  Svar
marts 2013

Jesper Feldthaus

Fine pointer og som de fleste gode råd, sund fornuft hvis man lige tager et øjeblik til at tænke over det.

Men er dog ikke heelt enig i alt hvad du skriver til Case 2. Du behøver ikke mindst 100 konverteringer på hver kombination for at kunne afslutte dit (tænkte) eksempel. Det er jo meget muligt at nogle kombinationer aldrig vil konvertere noget overhovedet, men det betyder jo ikke at dine resultater ikke vil være valide af den grund. En ikke-konvertering er også et resultat.

Loading…

Svar
1. marts 2013
  
  Michael Kjeldsen
  
  @Jesper Feldthaus: Jeg står i udgangspunktet fast ved, at der skal være 100 konverteringer ved hver variant – som tommelfingerregel. Men du har helt ret i, at et non-resultat også er et resultat.
  
  Det er klart at hvis der er en HELT ÅBENLYS vinder, så kan man godt afslutte testen uden 100 konverteringer pr. variant – jeg ville dog stadig gå efter minimum 100 konverteringer på vindervarianten.
  
  Det skal mest ses i lyset af, hvor mange tests der afsluttes for tidligt.
  
  Loading…
  
  Svar

Hvad vil du tilføjeCancel reply

This site uses Akismet to reduce spam. Learn how your comment data is processed.