Fazendo média com a média

A mais recente edição da Scientific American americana traz uma nota provocativa assinada pelo matemático John Allen Paulos, com o título Por que Você Provavelmente é Menos Popular Que Seus Amigos.

O motivo, explica Paulos, é simples: pessoas muito populares tendem a atrair um grande número de amigos, e é mais provável que um pobre mortal como eu ou você sejamos parte do "rebanho" compartilhado por umas poucas figuras supersimpáticas do que estarmos, nós mesmos, no rol dos polarizadores de popularidade.

O mesmo raciocínio se aplica ao Twitter: você provavelmente tem menos seguidores do que a maioria das pessoas que você segue. Por quê? Porque é mais provável que você seja uma pessoa comum que acabou atraída para alguns grandes agregadores -- celebridades, universidades, jornais -- do que você, pessoalmente, ser um grande agregador.

O que gera a situação paradoxal de o usuário médio do Twitter ter uma lista de seguidores com menos nomes do que a média.

O parágrafo acima confunde propositalmente dois conceitos associados à palavra "média": um é do de "mais comum" ("o cidadão médio é honesto e trabalha para pagar suas contas"); o outro, é o resultado de um procedimento matemático, que consiste em somar uma série valores e dividir o resultado pelo número de valores somados. Por exemplo, nos últimos sete dias este blog recebeu 162, 235, 197, 341, 310, 358 e 325 visitas, o que dá uma média de (162+235+197+341+310+358+325)/7, ou 275 visitas.

As noções de média ("mais comum") e média ("somar e dividir") se confundem por causa de uma distribuição estatística conhecida como a normal. Ela produz um gráfico com a famosa forma de "curva do sino", e tem a notável característica de que a maioria dos valores se agrega junto à média, o que realmente faz da média o valor mais comum:


As porcentagens que aparecem nas áreas sombreadas em azul referem-se à proporção do total da população que se pode esperar encontrar à medida que nos afastamos da média, para mais e para menos (a taxa de afastamento usada, para quem estiver curioso, é o "desvio padrão", um conceito de que não precisamos tratar aqui).

A distribuição normal é extremamente útil e aparece um uma infinidade de situações da vida real. Nela se encaixam, por exemplo, tanto a estatura quanto o peso de uma população; a idade dos alunos de uma determinada série escolar; o tempo que as pessoas passam na internet; e assim por diante.

O fato, no entanto, é que a distribuição normal não é a única em existência. Por exemplo: coisas como intensidade de terremotos, gravidade de atentados terroristas, vendas de livros e, sim, popularidade nas redes sociais seguem um tipo de relação conhecido como lei de potência, cujo gráfico tem o seguinte jeitão:


Este é, incidentalmente, um gráfico usado para descrever a distribuição de rankings de popularidade, onde o número de pessoas é representado no eixo horizontal e o ranking, no vertical. A imagem nos diz que uma uma pequena parcela da população é extremamente popular, e que a esmagadora maioria só faz sucesso mesmo com parentes e colegas de trabalho (se tanto).

No geral, distribuições estatísticas que seguem leis de potência indicam que a frequência de um fenômeno está inversamente ligada à sua intensidade: poucos livros são best-sellers, a maioria encalha; poucos ataques terroristas matam milhares de pessoas, a maioria leva menos de uma dezena de vítimas; poucos blackouts afetam Estados inteiros, a maioria derruba a força apenas em alguns poucos quarteirões (se bem que, no Brasil, isso parece perigosamente prestes a mudar).

Assim, se no caso de uma distribuição normal faz sentido tratar o valor médio como sendo o valor mais provável -- se lhe pedirem para adivinhar a altura de um brasileiro adulto do sexo masculino, você terá mais chance de acertar dizendo 1,7 m do que 2,0 m ou 1,4 m --  quando a distribuição envolvida é outra, isso não vale mais.

Conceitos úteis para contornar essa limitação da média são a moda e a mediana. "Moda" é apenas o valor mais frequente. Por exemplo, numa empresa com mil funcionários, onde quatrocentos ganham um salário mínimo, trezentos ganham cinco salários, duzentos ganham dez salários, noventa ganham vinte salários e dez recebem cem salários, a "moda" será o salário mínimo, porque esse é o valor mais pago.

Já o salário médio seria {[(400*1)+(300*5)+(200*10)+(90*20)+(10*100)]/1000}, o que dá quase sete salários mínimos (6,7, para ser preciso). Isso seria um péssimo estimador para usar se você estivesse, por exemplo, tentando adivinhar o quanto um funcionário "típico" dessa forma ganha: não só o salário mais frequente é de apenas um mínimo, como 70%  dos funcionários ganham menos que a média, recebendo  um ou cinco mínimos.

Já o salário mediano é o do funcionário que divide a massa salarial da firma em duas metades -- metade da empresa ganha mais do que ele, e a outra metade, ganha menos.

Se esse funcionário não existir, o valor mediano pode ser estimado, tirando-se uma média dos dois salários mais próximos do ponto teórico onde ele deveria estar. No caso da nossa empresa hipotética, esse valor estaria na faixa dos 5 mínimos.

Comentários

Postagens mais visitadas deste blog

Baleia ou barriga?

O financiamento público da pseudociência

Design Inteligente é propaganda, não ciência