terça-feira, 14 de abril de 2015

Estatística das citações científicas

Varin, Catellan & Firth (JRSSA, 2015)



Os últimos anos tem visto uma crescente influência de medições associadas a publicações científicas. Uma série de estudos foram desenvolvidos, dando muita relevância para a área de Bibliometria, que se ocupa de estudar medições de artigos científicos e publicações em geral. Esse novo estado de coisas propiciou várias novidades com as quais a Ciência não estava acostumada e trouxe quantificações em um meio onde sempre predominaram as avaliações qualitativas. Em geral, acabou havendo muita concordância mas alguma discrepância acaba inevitavelmente sendo gerada. Além disso, a profusão de números se presta a muitas utilizações diferentes, que variam bastante de motivação.

Uma postagem passada deste blog tratou da detecção de fraudes científicas. A fraude não era em termos do conteúdo da publicação mas em termos do padrão de citações dos artigos de alguns periódicos. Desconfiou-se e depois verificou-se que alguns periódicos estavam aumentando artificialmente as suas citações através de campanhas de inflação espúria nas citações de seus artigos.

Outro ponto importante é que essa área envolve uma quantidade não desprezível de dados. Além disso, os índices divulgados (e usados pela comunidade científica internacional) são totalmente disprovidos de medidas de incerteza, apesar do cenário altamente incerto onde eles se situam.

O simples uso de fatores de impacto não apresenta uma distinção tão clara dos periódicos. Além disso, ele mascara a relevância dos periódicos e periódicos entendidos como sendo de menor relevância aparecem no topo da lista ou perto dela.

Por conta desses fatores, um grupo de estatísticos resolver trazer esse tema para a área da qual ele nunca deveria ter saído. Rompendo com a tradição dominante até os dias de hoje, o artigo* desse grupo usa como matéria prima as citações cruzadas entre 2 periódicos para identificar a força da influência que um periódico tem. A base para esse trabalho é o modelo de Bradley-Terry, proposto há mais de 60 anos e que trata exatamente de comparações pareadas. Uma das áreas de maior uso desse modelo é o estudo de resultados de partidas esportivas (futebol, basquete, ...)

Os resultados por eles obtidos confirmaram a compreensão que muitos estatísticos tinham sobre a relevância relativa dos periódicos de Estatística. Os 4 periódicos que constituem a nata da Estatística se destacam claramente, como pode ser visto na figura acima, extraída do trabalho desses autores. E são os intervalos de confiança que permitem identificar com clareza os 4 periódicos de elite como tais. Também pode ser visto que periódicos onde pesquisadores no Brasil tem publicado muitos dos seus artigos (e coincidentemente são por eles elogiados) não aparecem tão bem no ranking.

É claro que esses resultados devem ser vistos como uma indicação e não como verdade absoluta. Nem estão prontos para ser usados: eles contemplaram apenas a área de Estatística e consideraram apenas uma fração dos periódicos da área. Mas vale destacar que os escores fornecidos em cenários como este, de grande incerteza, devem vir sempre acompanhados de seus respectivos limites de confiança. E os autores fazem isso competentemente!

=======================================
* - o artigo em questão tem como título Statistical Modelling of Citation Exchange Between Statistics Journals, foi escrito por Cristiano Varin, Manuela Cattelan e David Firth e será publicado em 2015 na Journal of the Royal Statistical Society, Series A (um periódico de renome e que aparece em um honroso 6o lugar no ranking que eles criaram.)

Nenhum comentário:

Postar um comentário