terça-feira, 11 de março de 2014

Lei dos Grandes Números


A última postagem (da semana antes do Carnaval) fez menção a essa que é uma das leis mais importantes da Estatística, senão A mais importante de todas. Essa lei já é conhecida há alguns séculos; a 1a prova rigorosa de sua validade completou 3 séculos com a publicação do celebrado livro de Jacob Bernoulli, Ars Conjectandi. Essa lei fala algo bastante simples, quase óbvio. Mas seus efeitos continuam sendo atuais e úteis em aplicações sendo feitas nos dias de hoje.

Primeiro vamos então ao seu conteúdo em uma linguagem informal. A lei simplesmente diz que a média de uma amostra com valores sucessivos extraídos de forma independente de uma população converge para a média dessa população. Isso não chega a surpreender. Afinal, se tomarmos um número cada vez maior de valores acabaremos exaurindo a população e calculando a média de todos os seus elementos. Mas a importância prática desse resultado é que se tomarmos um número suficientemente grande, já teremos uma boa (as vezes ótima) aproximação para a média global. Isso está ilustrado na figura acima. Após cerca de 500 valores, a média da amostra está praticamente sobre o valor populacional, que nesse caso é 2.

Vamos agora ser um pouco mais formais quanto ao sentido da palavra converge no parágrafo anterior. Afinal, valores extraídos de uma população são variáveis aleatórias sem valores fixos. Assim, não se trata aqui de convergência de números no sentido matemático e portanto não é nada óbvia a definição de convergência. Como os valores dessa amostra são aleatórios, a média também será aleatória, podendo ter valores distintos em diferentes amostragens.

Assim, temos versões diferentes da lei dos grandes números em função da noção de convergência utilizada. A Lei Fraca dos Grandes Números nos informa que a probabilidade dessas médias aleatórias se afastarem da média da população converge para 0 quando o número de amostras cresce. Ou seja, à medida que o tamanho da amostra cresce, aumenta a probabilidade da média amostral se aproximar de (e em algum momento até coincidir com) a média da população. Já a Lei Forte dos Grandes Números nos informa que a probabilidade do limite dessas médias (também aleatório) coincidir com a média populacional é 1. Ou seja, essa versão forte da Lei afirma que é certo (e não apenas muito provável) que a média amostral eventualmente coincidirá com a média da população.

Essa versão forte parece ser mais restritiva ou rigorosa. De fato, pode se mostrar que a Lei Forte implica na Lei Fraca, isto é, se a Lei Forte é válida, a Lei Fraca também será. A reciproca não é válida. Mas as situações onde apenas a Lei Fraca é válida, e a Lei Forte não, são muito raras e extremamente anômalas, quase nunca encontradas na vida real. Assim, costuma-se igualar as 2 versões da Lei.

A Lei dos Grandes Números garante a validade de procedimentos que realizamos diariamente na nossa vida cotidiana. Quando observamos um certo número de pessoas tendo uma determinada característica, tomamos a proporção desse grupo como a proporção de toda a população. Isso é aproximadamente verdade; quem garante isso é essa Lei. E essa aproximação será tão boa quanto maior for o tamanho da amostra que observamos.

Existe toda uma área da Estatística, conhecida como Monte Carlo ou como Simulação Estocástica, cujo principal pilar de sustentação é essa Lei. E essa área da Estatística tem crescido muito nas últimas décadas. Com o aumento da complexidade dos problemas tratados, torna-se praticamente inviável a obtenção de resultados exatos ou mesmo aproximados por métodos numéricos. Métodos de Monte Carlo tem se mostrado a principal arma para tratar esses tipos de problemas. Embora não tenhamos tratado diretamente de Monte Carlo, já falamos aqui de MCMC que são técnicas de Monte Carlo aplicadas a cadeias de Markov.

Existem várias extensões da Lei dos Grandes Números. Uma das mais interessantes nos informa que esse resultado é válido, sob certas condições, mesmo se os valores não forem tomados de forma independente, isto é, mesmo que valores sucessivos da amostra tenham uma relação entre si. No caso de cadeias de Markov, esse resultado é conhecido como Teorema Ergódico. Diferentemente da versão apresentada da Lei dos Grandes Números, esse resultado está longe de ser óbvio. Mas seu uso também é fundamental para justificar as aproximações usadas, por exemplo, em MCMC.

Um comentário:

  1. Estou no primeiro ano de graduação em estatística e sempre entro aqui para ir me familiarizando com o mundo da estatística. Obrigado por compartilhar seu conhecimento neste blog.

    ResponderExcluir