terça-feira, 20 de novembro de 2012

A TRI e o ENEM


Muito tem se falado ultimamente a respeito da Teoria de Resposta ao Item (TRI). Esse interesse existe tanto na mídia quanto nas pessoas em geral devido à importância que a TRI passou a ter pelo seu uso no ENEM. Em função disso, já fui contactado algumas vezes pela mídia (ver a última recentemente, em cadeia nacional) para tentar explicar como a TRI funciona. Assim parece razoável que o post inicial para discussão desse blog seja sobre a TRI.

O uso da TRI foi introduzido poucos anos atrás pelo INEP (órgão do MEC responsável pelo ENEM) como metodologia para atribuição das notas do ENEM. Esse uso foi regulamento através de um decreto/lei que fazia menção explícita da expressão "modelo logístico de 3 parâmetros". Devo confessar que fiquei muito feliz ao ver uma norma do governo falando uma linguagem técnica de Estatística.

Antes de tudo, é bom esclarecer que a TRI já vem sendo usada para construir notas de provas há quase meio século. Vários testes vem sendo rotineiramente aplicados desde então no mundo. Até mesmo o Brasil já usa a TRI rotineiramente em outras avaliações educacionais realizadas pelo mesmo INEP.  (Na realidade a TRI vai muito além da área educacional com importantes usos em Psicologia e outras áreas sociais mas vou me restringir aqui ao uso no ENEM.)

Assim, acredito que a sociedade pode ficar tranquila com respeito à essa novidade; ela tem sido posta à prova há muito tempo e parece ter resistido. Na realidade, o que vem acontecendo é um aumento na sua utilização no Brasil e no mundo.

Mas enfim em que consiste a TRI?

Como toda teoria ela tem uma série de hipóteses sobre o comportamento de um aluno perante uma prova. Uma das hipótese é que quanto melhor for o aluno maiores são as chances dele acertar a resposta. Outra hipótese é que é mais provável um aluno acertar uma questão mais fácil que acertar uma questão mais difícil. E isso independe da habilidade ou proficiência do aluno. Além disso, assume-se que a chance de um aluno acertar uma questão depende apenas de sua habilidade na matéria e das características da questão. Outra hipótese é que existe sempre a chance do aluno acertar uma questão de múltipla escolha mesmo sem saber nada pois ele pode acertar a questão "chutando" a resposta. Tudo isso é traduzido matematicamente com fórmulas mas, dentro do espírito desse blog, prefiro não entrar nesse nível de detalhe.

Essas hipóteses parecem bastante gerais e acho que são aceitas com naturalidade pela maioria das pessoas. Mas elas implicam consequências sérias e que podem dar origem a debates acalorados.

O exemplo mais emblemático é do aluno que erra todas as questões fáceis de uma prova e acerta todas as questões difíceis.  Algumas pessoas gostam de acreditar que gênios como Einstein poderiam se encaixar nesse padrão. Talvez elas acreditem que Einstein não se interessaria pelas questões fáceis por serem triviais para ele e acabaria errando elas ao passo que ele se interessaria mais pelas questões difíceis e, sendo gênio, acertaria todas elas.

Bom, a teoria supõe que é mais provável que um aluno acerte as questões mais fáceis do que as difíceis e isso vale para qualquer aluno, gênio ou não. Mas o aluno do exemplo não segue esse padrão, errando as fáceis e acertando as difíceis. Isso é incompatível com a hipótese da TRI! A única opção plausível para o padrão de resposta desse aluno é ele ter acertado as questões difíceis no chute e ser portanto julgado ter proficiência baixa.

(Eu tenho um programa bem simples que ilustra esse ponto. Pretendo disponibilizá-lo em breve no meu site. Esse programa calcula a proficiência ou nota do aluno para qualquer padrão de resposta em uma prova fictícia contendo questões fáceis e difíceis.)

De qualquer forma, a TRI leva em conta todos esses aspectos. O cálculo da proficiência do aluno considera características das questões (como sua dificuldade) e a partir delas, procura localizar a nota que seja mais compatível com o padrão de resposta. A conta não atribui pesos às questões mas leva tudo isso em consideração.

Ela é uma forma mais precisa de avaliar a capacidade do aluno justamente por levar todas esses pontos em consideração. Assim, não surpreende que alunos que acertaram mais questões possam ter nota menor que alunos que acertaram menos questões. Tudo vai depender de quais questões estamos falando. Acertar questões mais difíceis traz a nota do aluno para valores mais altos, desde que acompanhadas do acerto de algumas questões mais fáceis.

Talvez tranquilize um pouco as pessoas saber que se todas as questões tivessem as mesmas características, a ordenação das notas calculadas pela TRI coincidiria com a ordenação segundo o número de questões acertadas. Mas como sabemos que as questões tem características diferentes, parece mais razoável usar uma teoria que usa essa informação.

Outro ponto polêmico diz respeito à divulgação dos resultados. A conta que precisa ser feita para o cálculo da nota tem um grau de dificuldade razoável e essa conta precisa ser feita para milhões de alunos. Com isso, o resultado apenas é divulgado 2 meses depois da realização das provas, gerando angústia para todos os envolvidos.

Algumas pessoas sustentam que o INEP deva divulgar as características das questões que entraram na prova para que o cálculo da nota possa ser feito por qualquer indivíduo. Por um lado, minha posição na academia faz com quem eu defenda que tudo seja sempre tornado público para uma maior transparência e me faça um simpatizante dessa posição. Por outro lado, eu entendo a posição do INEP, preocupado em se resguardar de uma série de problemas, incluindo pessoas fazendo a conta de forma equivocada e sem a precisão necessária.

Assim, termino esse post com uma defesa enfática do uso da TRI no ENEM. Acho que a TRI constitui um avanço já aprovado no mundo todo e o INEP foi muito feliz ao ter adotado essa idéia. A TRI tem deficiências? Claro que tem mas elas também existem e são ainda maiores na teoria clássica, que conta apenas o número de acertos. Ambas essas teorias, teoria clássica e TRI em suas formulação básica, falham ao não reconhecer diferenças na formação que o aluno recebe. Assim, confundem habilidade com treinamento. A TRI admite outras formulações para cuidar desse problema.  Esse assunto é de fundamental importância para tratar adequadamente as desigualdades sociais de nosso país mas isso será assunto de um post futuro, onde a questão das cotas sociais será tratada.

17 comentários:

  1. Que a TRI permite melhor ordenar os alunos eu já sabia. O que eu não acho possível é fazer afirmativas sobre o desempenho geral do Brasil ano vs ano, como as vezes é feito. Estou correto?

    ResponderExcluir
  2. Tiago, meu post ficou um pouco longo. Isso acabou impedindo que eu falasse sobre algumas vantagens da TRI. Seu comentário foi muito útil para isso. Na teoria clássica (contagens dos acertos) fica muito difícil saber, por exemplo, se as notas aumentaram porque os alunos melhoraram ou se foi porque as questões ficaram mais fáceis. Uma das maiores vantagens da TRI (e talvez a chave para seu sucesso) é que a caracterização das questões é feita em uma escala única. Isso dá a ela a possibilidade de comparar desempenhos de diferentes grupos de alunos, independente das questões que eles responderam. Assim, torna-se possível fazer comparações das notas dos alunos em diferentes anos. Essa vantagem pode não ser útil para um aluno que fez a prova em um dado ano mas é muito útil para compreensão do sistema educacional como um todo.

    ResponderExcluir
    Respostas
    1. Caro professor,
      não entendi como é possível, por meio da TRI, fazer uma comparação entre os candidatos de diferentes anos. Suponhamos que nós colocássemos apenas alunos do ensino fundamental para fazer o ENEM de um determinado ano. A porcentagem de acertos diminuiria, a princípio, homogeneamente em todo o Brasil. Como a nota de cada candidato se baseia no nível de dificuldade de cada questão acertada, que por sua vez é determinado pela porcentagem geral de acertos daquela questão, nós não teríamos, em média, as mesmas notas que observamos em um ENEM regular?

      Aproveito para te congratular pelo blog. Certamente serei assíduo.

      []s
      Marcus Waddington.

      Excluir
    2. Marcus, todas as questões são pré-testadas para determinar suas características em uma população. É importante que a amostra do pré-teste seja representativa da população de interesse, no caso alunos concluintes do ensino médio. Na improvável situação de apenas alunos do ensino fundamental fazerem a prova em um dado ano, o desempenho médio fatalmente diminuirá, como esperado.

      Excluir
  3. Prezado Dani. Achei ótima a tua idéia desse teu blog e portanto vou aproveitar para discutir.
    1) Nas hipóteses sobre o comportamento do aluno quem classifica as perguntas como fáceis ou difíceis ?
    2) Qual o critério utilizado para classificar as perguntas nessas duas categorias?
    3) Mesmo adotando critérios de classificação bem definidos, duas pessoas adotando o mesmo critério podem classificar as respostas de modo diferente. Há que haver concordância entre vários observadores para cada pergunta.
    Isto é plenamente conhecido na área de saúde. Por exemplo: pretendo classificar entre as causas de morte, o diagnóstico de morte súbita e defino morte súbita como aquela em que os sintomas do problema que levou a morte iniciaram até 6h antes da morte (sem comentar o problema de definir morte). Face a este critério que parece de fácil aplicação, os resultados de classificação de morte súbita variaram entre obsdervadores independentes analisando os mesmos casos. Isto alterou os resultados finais de um estudo que queria avaliar se uma droga reduzia a probabilidade de morte súbita. O erro de classificação alterou o percentual de pacientes classificados coimo morte súbita e portanto os resultados atribuidos à droga.
    Como, em prova com muitas perguntas, obter uma concordância aceitável entre não apenas 2 ou 3 observadores independentes, mas vários observadores? Com dois ou tres observadores e apenas um diagnóstico é mais fácil mas com multiplas perguntas de várias áreas e para alunos com diferentes formações poderemos estar cometendo erros gravíssimos de classificação.
    Um grande abraço
    Nelson Souza e Silva

    ResponderExcluir
  4. O que eu não entendo é como é possível separar a idiossincrasia da prova da idiossincrasia dos alunos naquela prova,

    Ou você presume que o grau de dificuldade não mudou or que o nivel dos alunos não mudou e ambas presunções me parecem muito restritivas. Alguma alocação, ou aluno prova, ou questões prova, precisa ser aleatória.

    ResponderExcluir
  5. Tiago e Nelson, existem várias formas de determinar as características das questões. Em avaliações de larga escala, o mais comum é pré-testar todas as questões com amostras-piloto de candidatos. Acredito que o INEP faça isso com o ENEM. As características de todas as questões são determinadas a partir da informação obtida com essas amostras. Isso é realizado através de estimação estatística dessas características. Assim, no mínimo a questão das idiosincrasias das questões fica resolvida. Uma das características das questões é a dificuldade (as outras são discriminação e probabilidade de acerto casual) e ela varia em um contínuo de valores; a dicotomização fácil/difícil foi apenas uma tentativa de simplificar a apresentação.

    A hipótese de trabalho aqui é que as amostras são representativas da população de interesse. Existem muitos estudos indicando os cuidados que devem ser tomados para isso ser o mais razoável possível. Pode-se também assumir previamente que o padrão dos alunos muda ao longo das populações estudadas (por exemplo, de ano para ano) ou deixa-lo inalterado. Em ambos os casos, a informação obtida com as respostas dadas é que vai dizer se houveram mesmo mudanças e, em caso positivo, qual a sua direção e qual a sua magnitude. Novamente, isso é realizado através de estimação estatística das habilidades ou proficiências dos alunos.

    ResponderExcluir
  6. Olá. Parabéns pela iniciativa. Acabo de fazer as contas acerca da "onda de assassinatos" em São Paulo e, analisando a Taxa de Homicídios por 100.000 habitantes no Rio, São Paulo e Brasil, me parece que existe uma desproporção na forma como isso está sendo noticiado. Que tal um post analisando esses dados?

    ResponderExcluir
  7. André, o uso de Estatística e dados estatísticos pelos outros, especialmente a mídia, será ainda tema de muitos posts aqui. Aguarde!

    ResponderExcluir
  8. Dani, achei este post bem interessante, de facil leitura para a leiga que sou. Confesso que nao conhecia a TRI, entao valeu por me atualizar no debate que esta' rolando ai no Brasil. Voce sabe se a TRI tambem e' usada nos GCSEs e A-Levels no Reino Unido?
    Dana Winogron

    ResponderExcluir
  9. Dana, a TRI é muito mais fácil de usar em larga escala para avaliações de múltipla escolha. Não sei se é esse o caso dessas avaliações daí. Embora o uso da TRI para avaliações com questões discursivas seja tecnicamente possível, a operacionalização em larga escala se torna bem mais complexa.

    ResponderExcluir
  10. Dani, entendi tudo. Agora é pedir ao André que leia seu post sem predisposição contra a TRI... :-) Abração

    ResponderExcluir
  11. Pedro Ricardo del Santoro25 de novembro de 2012 às 22:43

    Prezado prof. Tomei conhecimento do teu blog por um amigo do facebook Abaixo repasso o comentário que fiz para ele. Se puder comente pro favor. Será que tenho razão em pensar que o Inep deveria divulgar mais detalhes técnicos de como é calculada a nota do Enem?

    "Faz tempo que estou interessado na TRI e tem bastante coisa sobre ela na rede. Mas uma coisa que eu não consegui achar , nem escrevendo para o Inep, é a fórmula ou algoritmo usado para calcular a nota final de um candidato a partir de suas respostas.
    Um exemplo hipotético que deve ser muito raro mas é plausível: João e Maria pretendem entrar na mesma universidade e curso. João e Maria acertam o mesmo número de questões o ENEM. Mas João acerta uma questão que Maria errou, e Maria acerta uma que João errou. João fica com uma nota final maior que Maria. João entra na universidade que queria e Maria não !!!! Ok. Faz parte do sistema e deve ser justo..Explicações qualitativas sobre como isso pode acontecer a gente acha com certa facilidade .Mas, cadê a formula usada para o calculo das notas, assim como os valores numéricos dos parâmetros que ela contem e que, possivelmente , dependem dos conjunto de respostas dadas por todos os candidatos...? Eu pelo menos não consegui achar . Quem conseguir e me dizer ganha uma caixa de lápis de cor...rsrs"

    ResponderExcluir
  12. Pedro, seu ponto foi discutido no penultimo parágrafo de meu post.

    ResponderExcluir
  13. O André pequeno odeia a TRI. abraços!!!

    ResponderExcluir
  14. Olá, professor Dani,
    o programa que foi mencionado nesta postagem já está disponível?

    Abs,
    Cristiano

    ResponderExcluir
    Respostas
    1. Cristiano, muito boa lembrança. Será o tema da postagem da próxima semana.

      Excluir