Teste A/A: como elevei conversões em 300% sem fazer absolutamente nada

Por: Time Superlógica8 Minutos de leituraEm 08/06/2017Atualizado em 25/09/2020

Por David Kadavy

Só existem algumas poucas coisas sobre as quais “wantrepreneurs” (da tradução livre, empreendedores que têm muitas ideias, mas não as executam), com todo o respeito, eu mesmo sou um wantrepreneur em recuperação, adoram falar mais do que realizar testes A/B.

A crença parece ser a de que, se continuarem fazendo testes, vão encontrar as respostas e criar o empreendimento dos seus sonhos.

A maioria deles está errada. Muitos de seus negócios se dariam melhor se não realizassem nenhum teste A/B.

Caso você se decida por testar, opte pelo teste A/A

Na pior das hipóteses, muitos desses wantrepreneurs fariam um favor a si mesmos ao fazer testes A/A.

Em um teste A/A, você realiza um teste usando exatamente as mesmas opções para ambas as “variantes” do seu teste.

É isso mesmo. Não há diferença entre “A” e “B” nos testes A/A. Soa imbecil… até que você veja os “resultados”.

Só fiz testes A/A por 8 meses. E não dá para acreditar por que você ainda está lendo este intertítulo?

De junho a janeiro, não fiz outro que não o teste A/A nos e-mails que enviei por MailChimp. 56 campanhas diferentes, totalizando mais de 750.000 e-mails, e eu nem mesmo testei uma subject line (o campo “assunto”) – desde então, mudei de MailChimp para ActiveCampaign.

Isso não me impediu de ter um ano de seis dígitos em meu empreendimento “solopreneur” (empreendedor que atua sozinho) e de iniciativa completamente própria.

Nova call to action

Nesse período, me deparei com “resultados” como esse.

Me divirto fazendo teste A/B com *exatamente o mesmo * e-mail & tendo performances estatisticamente diferentes

— David Kadavy (@kadavy) 

Para muitos wantrepreneurs (incluindo meu antigo “eu”), isso soa como “Minha nossa! Você aumentou aberturas de e-mails em 10%!”. São capazes até de inserir isso na calculadora de significância do Visual Website Optimizer (“Otimizador Visual para Websites” em português) e ver que p= 0,048. “É estatisticamente significante!”, eles (ou eu) podem exclamar.

Na verdade, quando compartilhei resultados de testes A/A como esses, muitas pessoas se recusaram a acreditar. Diziam coisas como:

“Qual a diferença desses e-mails?” (Não há)

“Foram enviados em horários diferentes?” (Não)

“O que você mudou?” (Nada)

É UM TESTE A/A! É exatamente o mesmo e-mail, enviado exatamente na mesma hora, usando qualquer que seja a tecnologia que o MailChimp usa para enviar testes A/B.

“Ah, mas e a tecnologia do MailChimp?” Bom, você pode levar isso em consideração, mas pense que…

… para um estatístico, não há nada de especial nesses “resultados”. Dada a taxa de conversão padrão para aberturas de e-mails, o tamanho amostral simplesmente não é grande o bastante para se chegar a um resultado confiável. O que está acontecendo aqui são apenas as pequenas peças que nossas débeis mentes humanas pregam em nós quando tentamos medir as coisas.

Mesmo que realmente tenha uma amostra grande o suficiente, você caminha para o ocasional “falso positivo” ou “falso negativo”.

Isso quer dizer que você poderia tomar uma decisão completamente equivocada com base em informações falsas.

Os incríveis “resultados” que obtive com meus testes A/A

Fazer um teste A/A para cada e-mail por 8 meses me mostrou como os “resultados” dos testes A/B podem ser enganosos. Confira alguns resultados que eu tive ao não mudar nadinha de nada.

Um aumento de 9% em abertura de e-mails!

 


Um aumento de 20% em cliques!

 


Uma taxa 51% menor de cancelamento de inscrição!

 


E, por último,
incríveis 300% de aumento em cliques, todos sem fazer absolutamente nada!

 

Nitidamente, aos olhos mais experientes, está claro que nenhum desses testes tem um tamanho de amostra grande o bastante (quando levamos em conta a taxa de conversão padrão) para ser significante.

Aos olhos de um wantrepreneur, contudo, acabaram de validar (ou invalidar) suas hipóteses. Podem abandonar toda sua visão com base em “resultados” como esses.

Você pode ver os “resultados” de todas essas 56 campanhas de e-mail compilados nesta prática planilha.

É significante? E isso por acaso importa!?

Passei horas mergulhado em artigos, aprendendo justamente como realizar um teste A/B significativo e confiável e cheguei a esta conclusão: não faz a mínima diferença.

Na minha opinião, não importa, e, para a maioria dos negócios em ascensão, não importa.

E sabe por quê?

Razão #1: O teste A/B exige (acertadamente) uma energia tremenda

Muitos recursos são necessários para se realizar um teste que faça uma pergunta importante, que use uma amostra grande o suficiente para que se chegue a uma conclusão confiável e que o possa fazer em meio a um campo minado de formas diferentes para retirarem você do caminho.

Você precisa projetar o teste, implementar a tecnologia e, ainda por cima, imaginar múltiplas hipóteses. Se você estiver à frente de uma organização enxuta, esse esforço só vale a pena em alguns poucos casos.

Por que criar um “A” meia-boca e um “B” meia-boca quando é possível fazer um “A” boca inteira?

Como um solopreneur e de iniciativa completamente própria, percebi que todo o esforço mental que usei com testes A/B poderia ter sido direcionado para aquela opção que seria a mais lúcida interpretação da minha visão.

Razão #2: O teste A/B não substitui sua visão

Em Zero to One, Peter Thiel nos alerta sobre o “incrementalismo”, ou apenas trabalhar para melhorar o que já está no mercado. Nosso mundo carece de empreendedores com visão e, se estiverem ocupados demais criticando e testando tudo (frequentemente tomando decisões erradas com base nesses testes), isso é uma tristeza para a humanidade.

Até mesmo Eric Ries, um dos precursores do movimento das startups enxutas (também conhecidas por Lean Startup), o qual deu início ao culto dos testes A/B, implicitamente faz um alerta contra levarmos esses testes muito a sério em seu livro, o The Lean Startup:

Não temos condição de deixar nosso sucesso dar origem a uma nova pseudociência em torno de pivôs, MVPs e coisas do gênero. Este foi o destino da gestão científica e, no final, acredito, isto entravou sua causa por décadas. A ciência chegou para representar a vitória da rotina perante o trabalho criativo, da mecanização perante a humanidade, e dos planos perante a agilidade. Movimentos posteriores tiveram de ser gerados para corrigir aquelas deficiências.

Eric Ries, The Lean Startup

Muitos wantrepreneurs desejam usar os testes A/B em substituição a ter uma visão empreendedora. Não há dúvida de que os conceitos introduzidos em The Lean Startup são poderosos, mas alguns vão longe demais ou simplesmente interpretam mal aquelas ideias.

É muito triste, de verdade. Isso nos faz pensar em quantas ótimas ideias devem ter sido (in)validadas no esquecimento.

Tenho uma sólida visão para minha empresa que está enraizada em um ponto de vista muito bem elaborado sobre Como Nosso Mundo Funciona. Tenho mais interesse por canalizar meus esforços a fim de aperfeiçoar meu modo de pensar (aprendendo sobre história, economia, tendências tecnológicas etc.) e colocá-lo em prática do que por imaginar quais palavras usar em meu botão call-to-action (CTA).

Razão #3: Estatística não é sua competência core

Infelizmente, a web está cheia de informações erradas sobre os testes A/B, que são normalmente perpetuadas por:

  1. Wantrepreneurs que não sabem como realizar um teste confiável OU
  2. Pessoas ou companhias que têm algo a ganhar ao fazer as pessoas acreditarem que testes A/B são a resposta para todos os seus problemas (vendem ferramentas de testes, estão em busca de page views etc. Não é uma vasta conspiração, só o modo de como o capitalismo funciona).

Por outro lado, encontrei alguns bons recursos que explicaram bem as complexidades de se fazer um teste confiável.

O que eu percebi foi que

  1. Se eu realmente quero fazer um teste A/B confiável, as informações estão por aí.
  2. É complicado pra caramba.
  3. Não me ocorreria naturalmente.

Não que eu seja ruim em matemática. É que não sou tão bom assim em matemática.

A menos que tenha estudado adequadamente e entenda bem de estatística, você deveria ficar com o pé atrás ao fazer testes. Mesmo assim, lembre-se de que, “para alguém com um martelo, tudo parece prego”.

Razão #4: Você não é o Google

Perto dos 30.000 inscritos, ainda não tenho uma lista de e-mail num tamanho decente para um solopreneur. Mas o que eu posso testar com isso? Pra falar a verdade, não muito.

Usando a fantástica caculadora de tamanho de amostra de Evan Miller, vamos ver que tipo de tamanho de amostra eu preciso mesmo.

Caso eu queira testar a taxa de cliques (CTR – click-through rate) de dois e-mails diferentes, minha taxa padrão estaria em algo como 2,2%. Esta é provavelmente a CTR que eu posso esperar se, na verdade, estiver tentando obter cliques em um e-mail.

Acontece que, com uma lista aproximadamente do meu tamanho (14.517 por branch = 29.034), eu conseguiria começar a detectar uma diferença com a mudança de mais ou menos 0,49%, ou um acréscimo ou decréscimo de 22% em cliques.

Esta é uma grande diferença e é quando eu começaria a “saber” que tinha um vencedor. O “porém” é que em apenas 80% das vezes (poder estatístico = 80%) a diferença pode ser verdadeiramente detectada, e em 5% das vezes (nível de significância = 5%) será dito que há uma diferença quando, na verdade, não há diferença.

Para tornar um ROI consistente ainda mais improvável, um clique em um e-mail não necessariamente coloca dinheiro no meu bolso. Tipos diferentes de prospects se comportam de modos diferentes.

Por exemplo, um longo e-mail pode gerar menos cliques, mas os cliques gerados serão prospects mais interessados, mais quentes e mais dispostos a converter.

Usando dados históricos, se quero encontrar uma elevação significante em compras a partir de um único e-mail, vou precisar fazer um “B” que converta 70% mais clientes do que a opção “A”.

Não sou o Google. Com os tamanhos amostrais que posso organizar, consigo despender minha energia tentando dominar meu truque da mente Jedi ou usar minhas melhores práticas, de modo a me concentrar a tornar meus produtos e minhas ofertas mais sedutores.

Vamos fazer um teste? Depende

Não tem como negar o poder do método científico. Quando aplicado corretamente, pode ser inestimável ao guiar um empreendedor quando do surgimento de questões importantes sobre um empreendimento.

Aqui vão algumas perguntas para você se fazer com o intuito de decidir se realiza ou não um teste A/B:

  • Tenho uma pergunta importante? Responder esta pergunta vai ter impacto merecedor do esforço de um teste?
  • O que mais eu poderia estar fazendo com minha energia? Fazer experimentos e ser criativo e visionário são dois modos cerebrais completamente diferentes. Sua distração está te impedindo de ter ideias valiosas?
  • Consigo fazer um teste grande o bastante? Conecte sua taxa de conversão padrão e o “efeito mínimo detectável” a esta calculadora de tamanho amostral para saber se você tem chance de ao menos chegar a uma significância estatística.
  • Entendo bem de testes? Experimente fazer testes A/A para ter uma ideia de como os “resultados” podem ser enganosos. Se ainda achar que vale a pena testar, leia e compreenda alguns dos recursos abaixo para aprender como fazer um teste confiável.

Também tenha em mente que há outras formas de “testar” negócios. Gosto muito do teste vamos-tentar-isso-e-ver-o-que-dá-e-depois-repetir.

Me diz uma coisa, Einstein… Como se faz um bom teste?

A resposta é: não sei direito. Para falar a verdade, é capaz que eu tenha bagunçado algumas das terminologias e metodologias acima (era essa a intenção, na real).

Há pessoas por aí se esforçando para transmitir informações precisas sobre os testes A/B, mas algumas delas parecem não a ter lido. Aqui vão alguns recursos que achei confiáveis e úteis:

  • Como os dados vão fazer com que você execute tudo ao contrário. Caso você somente consulte um destes recursos, esse é seu cara.  Papo reto de estatística e testes por um estatístico experiente, de sucesso e empreendedor (Jason Cohen, fundador da WP Engine).
  • Como não fazer um teste A/B. Por que você precisa determinar o tamanho da sua amostra antes de começar a testar e por que a sua plataforma de testes A/B pode estar exponenciando sua taxa de falsos positivos.
  • O problema da taxa base baixa. Como meus resultados acima podem ter parecido significativos, mas não efetivamente sido? Poder estatístico. Saiba mais sobre ele e como torna inútil a maioria dos testes com baixa “taxa base”. Adoro essa citação: “alguém que careça de um bom entendimento de poder estatístico deve ficar longe de projetar ou interpretar testes A/B”.
  • 12 erros de testes A/B que vejo empreendimentos cometerem o tempo todo. O Peep Laja, meu amigo e expert em conversões, tem muito conteúdo sólido sobre testes em seu blog. Esta é uma boa apresentação.

Tudo bem não testar

Fazer testes confiáveis e que te darão respostas definitivas é difícil.

Enquanto isso, um aumento de 300% em taxa de conversão de 0% ainda é 0%. Mande logo essa mercadoria.

É melhor concentrar seus esforços em outro lugar, e você pode começar a testar quando for mesmo necessário. Tudo bem não querer ser um expert em estatística.

Nesse meio-tempo, experimente realizar alguns testes A/A. Vai se impressionar com os “resultados”.

David Kadavy é autor de um dos best-sellers da Amazon, o Design for Hackers. Artigo traduzido e publicado com autorização do autor. Texto original: A/A Testing: How I increased conversions 300% by doing absolutely nothing.



Leitura Recomendada