Sobre volume e impacto de publicações brasileiras

ATTENTION: There is also an English language article about the graphics I show here available at my Nature Network blog:Cute graphic showing volume and impact of publications from different countries.

Este artigo pretende em primeiro lugar apresentar uma análise da evolução de 1996 a 2008 do volume e impacto de publicações científicas de diferentes países. Os dados foram obtidos do site SCImagoJR, que analisa dados retirados do Scopus ― possuindo portando todas limitações e vantagens trazidas por isto. Qualquer um pode obter os dados em http://www.scimagojr.com/, e fazer suas próprias análises. Isto é útil para contestar conclusões tiradas por outras pessoas, como faremos na segunda parte do artigo.

Fiquei conhecendo o banco dados e fui estimulado a estudá-lo por causa do artigo Olavo de Carvalho discute o retrocesso da ciência brasileira por Marcelo Hermes (doravante denominado “análise alternativa”). Os dados apresentados impressionam, mas um estudo mais cuidadoso mostra que as conclusões são precipitadas. Os tais países nanicos definitivamente distorcem a análise, como sugerido por algumas contestações nos comentários naquele blog. Na análise que apresento a seguir o Brasil está claramente apenas evoluindo de maneira natural e em conjunto com vários outros países significativos (Índia, Taiwan, Coréia do Sul, Polônia). É possível também comparar na mesma análise estes países “positivos” com alguns que exibem comportamentos verdadeiramente “negativos”. Trata-se da Rússia e da China. A Rússia demonstra uma forte estagnação, e foi recentemente superada em volume pelo Brasil e outros países. Já a China tem apresentado um admirável crescimento em volume, mas  não está conseguindo conseguiu elevar seu índice de impacto.

Aconselho ao autor daquele artigo, ao Olavo de Carvalho e à Agência Tucana que revejam suas colocações. Não há nenhuma grave regressão ocorrendo nas publicações brasileiras. Por favor, notem que eu mesmo já critiquei a política científica do governo previamente (artigo Pelo aumento imediato nas bolsas de pós-graduação). Acho que um bom diálogo político só pode começar depois que um grande volume de dados de boa qualidade se façam disponíveis.

Análise proposta

Estamos interessados em saber ao mesmo tempo como evoluiu o volume da produção científica do país, e como variou a qualidade desta produção. O volume é dado pelo simples número de artigos publicados. Aqui este número foi tirado do citable documents do SCImagoJR. Já a qualidade foi medida apenas através do impacto, medido por sua vez pela quantidade de citações recebidas pelos artigos de cada ano.

O problema de trabalhar com número de citações é que a cada ano que passa artigos antigos podem ganhar mais citações. Assim é normal que o índice apresente um forte decrescimento ao longo do tempo para qualquer país. Isto é apenas consequência da natural demora até que a novidade passe, e o número de citações de um determinado ano desacelere até uma velocidade próxima de zero (mas sempre positiva, porque não existe des-citação).

É bom portanto encontrar alguma forma de compensar este efeito para estudar os números. O que desejamos é algo como uma predição de quantas citações cada país receberá para cada ano depois de, digamos, 10 ou 20 anos. Queremos prever o valor que o índice alcançará no regime estacionário de citações após o transitório de sua publicação.

Uma forma simples, senão até rudimentar de fazê-lo é normalizar os dados de cada ano. Um mesmo fator é aplicado aos valores de cada ano com o objetivo de compensar a forte queda que mencionamos. Estes fatores podem vir do inverso de uma média dos países em cada ano, por exemplo. Em nosso estudo utilizamos o inverso do número de citações dos Estados Unidos, que possui o maior número de citações, e seria também a priori um país bastante estável. Fazer isto é equivalente a dizer que supomos que o número de citações que os EUA irão receber no futuro para cada ano tenderia a uma constante, e ainda que os países receberiam citações mantendo a proporção de cada ano. Em nosso estudo os dados foram normalizados considerando esta constante como sendo o valor para os EUA em 1996. Não creio serem assunções muito ousadas, e caso deseje-se considerar cenários alternativos esta normalização pode ainda servir como um bom ponto de partida.

O gráfico a seguir apresenta os dados após esta normalização. Cada país é uma curva neste plano, desenhada com seus valores ao longo dos anos. O eixo vertical é o número de citações comparado ao dos EUA em cada ano. O eixo horizontal é o número de artigos publicados comparados ao número dos EUA no primeiro ano da série, 1996.

Number of published documents and predicted citations in linear scales

A curva dos EUA se encontra bem além dos limites selecionados. Ela teria o aspecto de um pequeno segmento de reta perfeitamente horizontal próximo ao ponto (330.000, 7.918.131). Isto reflete as normalizações e a pequena variação no  volume de publicações deste país durante o período estudado.

No gráfico acima foram selecionados todos os países que alcançaram mais de 10.000 publicações em 2008. Vemos algumas potências na extremidade superior direita. Existem vários outros países relevantes além dos limites selecionados para este desenho. Já na extremidade inferior esquerda encontramos uma grande concentração de países mais modestos, entre eles o Brasil que teve mais de 30.000 publicações em 2008 (curva em azul). A sigla de cada país foi escrita próxima ao ponto de sua curva relativo ao ano de 2008.

As curvas possuem aspectos retilíneos, e seus ângulos e posições sugerem regras de proporção direta entre as grandezas, ou seja, que o valor de citações por documento seria aproximadamente constante para cada país. Para averiguar isto plotamos o seguinte gráfico, onde o eixo x traz novamente o número de documentos, e o eixo y traz o valor de y/x do gráfico anterior. Este novo gráfico foi feito com escalas logarítmicas, principalmente para facilitar a visualização, tornando tudo um pouco mais homogêneo.

Academic “street cred” history of different countries

Neste gráfico só ficou de fora os EUA, e ainda parte da curva da China. Lembrem-se que o valor do eixo vertical não é o mesmo CpD do SCImagoJR, porque lá eles dividem o número exato de citações pelo número de documentos, enquanto aqui realizamos a compensação pelo decrescimento relativo no número de citações dos EUA com base em 1996.

É possível notar a existência de algumas tendências neste gráfico. Existem grupos distintos de países, que separei aqui no olhômetro mas ainda seria bom medir com alguma ferramenta de aprendizagem não-supervisionada… O primeiro grupo são de nações bastante desenvolvidas, no canto superior direito: Reino unido, Alemanha, França, Itália, Canadá e Espanha ocupam a região com CpD de 16 a 25, e mais de 33 mil citações. Os EUA se destacam deste grupo pelo grande número de citações, e CpD próximo de 25. O Japão apresenta volume comparável ao do Reino Unido e Alemanha, mas tem o CpD bem mais baixo, apenas em torno de 14.

Atrás deste grupo possuímos mais algumas nações desenvolvidas, mas de menor tamanho. Com volume entre 10 mil e 33 mil publicações, mas com um CpD um pouco mais alto entre 18 e 28 temos Holanda, Bélgica, Suíça, Áustria, Suécia, Dinamarca, Finlândia, Noruega e por fim, Israel.

Abaixo deste grupo possuímos 5 países com volume modesto de publicações, 10 mil, e CpD próximo de 14: Cingapura, Hong Kong, Portugal, Grécia, e República Checa, sendo que esta une-se às outras apenas no passado recente. Por fim temos outro grande grupo, com CpD ainda menor, de 8 a 12, mas volume de publicações mais considerável, 10 mil a 50 mil: México, Irã, Polônia, Turquia, Taiwan, Brasil, Coréia do Sul e Índia.

Abaixo de todos estes países, com um CpD  de apenas 6, Temos a Rússia estagnada em um volume de 30 mil publicações, e a China crescendo com grande velocidade no eixo horizontal, mas sem aumentar o CpD, especialmente nos últimos anos (fora deste gráfico). Seu volume em 2008 atingiu 220 mil documentos, dois terços o dos EUA, mas o CpD atual é apenas similar ao da Rússia. O número absoluto de citações resultante é até consideravelmente grande: ultrapassou o do Japão em 2007 apesar do “alto custo”.

O Brasil pode não estar entre as nações desenvolvidas no alto do gráfico, mas está bem acompanhado. Apesar de um pouco atrasado em volume, parece seguir um caminho similar aos da Coréia do Sul e Índia. A Coréia é sempre lembrada como grande exemplo que o Brasil deveria tentar seguir, por ter passado por um histórico desenvolvimento no final do século XX. Já a Índia muito é lembrada por ser um dos BRIC. A posição do Brasil parece bastante saudável em comparação com a Índia, ficando atrás apenas em volume, e ainda se encontrando junto de Taiwan. Certamente é uma posição melhor que a dos outros dois BRICs, Rússia e China.

É verdade que há um pequeno decaimento no nosso CpD ocorrido nos últimos 3 ou 4 anos, e o próprio crescimento em volume parece estar desacelerando. Mas isso ainda não é nada próximo do que poderíamos considerar um “brutal retrocesso na ciência brasileira”. Outros países apresentam decaimentos similares (Coréia do Sul, Taiwan, Cingapura, Hong Kong), logo seria bom estudar o que houve também nestes países antes de dizer que haveria algo errado na nossa política individual causando isto.São apenas a Rússia e a China que demonstram nesse gráfico algum tipo de sintoma chamativo que precisaria de atenção, que evidenciaria alguma singular política falha.

O gráfico a seguir possui os mesmos dados do anterior, porém mostra muito mais países. As linhas azuis tracejadas indicam níveis iguais de quantidade de citações.

Number of published articles and predicted cite rate for many countries

Este gráfico mostra como o índice de CpD se torna “ruidoso” para países pequenos. Dos mil artigos para trás é muito difícil encontrar qualquer tipo de aglomerado de países semelhantes. Mas existem alguns países que surgem neste gráfico que parecem fazer parte daqueles grupos que destacamos acima. Caminhando para juntar-se ao grupo de Portugal e Cingapura temos Nova Zelândia, África do Sul, Hungria, e nossos vizinhos Argentina e Chile. Com um pequeno volume, caminhando acima desses mas ainda abaixo dos nórdicos, está a Irlanda.

No mesmo nível de CpD do grupo do Brasil, mas com um volume menor, temos Tailândia, Egito e Paquistão. Outros três países com um histórico consistente surgem também em níveis baixos de CpD, aproximando-se dos 10 mil artigos: Romênia, Malásia, e Ucrânia. O caso da Ucrânia é interessante porque ela parece demonstrar o mesmo tipo de estagnação da Rússia, sem crescimento de volume mas com alguma variação em CpD. Neste gráfico também é possível ver como a China apenas recentemente alcançou o Japão em número absoluto de citações, o que é mostrado pelas linhas tracejadas.

Conclusão da análise: O Brasil não vai mal não. Seu ritmo de crescimento é comparável ao de outros países, e sua estabilidade no mesmo valor de CpD (valor predito, calculado por nós) também é comparável à de outros países. Poucos países de CpD alto parecem estar sofrendo alguma redução significativa. Alguns países nórdicos parecem compartilhar um perfil decrescente, mas não acho acentuado o bastante para realmente merecer atenção. Alguns países possuem curvas que subiram e desceram, também não necessariamente chamando muito a atenção. República Checa, Austrália e Canadá são alguns que me despertaram mais curiosidade, por parecerem estar migrando de um grupo de países para outro. Existem também os outliers óbvios: Rússia, Ucrânia, Japão e os próprios EUA…

Brasil, Coréia e Índia apresentam algumas inflexões que talvez sejam dignas de mais estudo, mas também não tão significativas. Gostaria muito de poder jogar aqui os números de 2009, mas não sei nem quando estarão disponíveis.

Porque a outra análise não é bacana

Na análise alternativa o que se fez foi ranquear os países ano-a-ano de acordo com seus valores de CpD, selecionando-se países com mais artigos do que um certo limiar. O limiar mais mencionado pelo autor foi de 5 mil artigos. Existem vários problemas com essa técnica:

Injustiça métrica do rank: Existem poucos países com valores muito altos de CpD, e muitos países com valores mais modestos. Entre os mais modestos está o Brasil. Se você plotar a curva do valor do CpD em y, e o rank de cada país em x, assim como aparece na tabela do SCImagoJR, vai notar que pros países de alto rank, ou de baixo CpD, a inclinação é muito baixa. Isso significa que existe uma alta sensibilidade nesse valor do rank se variarmos o CpD só um pouco. A variação pros países de CpD mais alto é menor. Isso é uma certa injustiça, uma não-linearidade que seria melhor evitar. Usar o rank ao invés de simplesmente falar nos valores gera um discurso muito intenso, fala-se que o país “despencou de 20º para 30º”, o que seria uma variação de “50%” no rank, mas a variação no valor original poderia ser até menos de 10%.

Usar o rank como ferramenta de normalização é até uma idéia interessante para resolver o problema da grande variação no número de citações para um determinado país entre os diferentes anos. Mas é preciso tomar cuidado com as injustiças que isto acarreta. Minha opinião é que é sempre melhor estarmos próximos aos dados originais, e o ranqueamento cria um processo intermediário sem muita necessidade.

Uso de CpD, e os países “nanicos”: Utilizar CpD para comparar países é um pouco controvertido porque seria mais fácil para um país com um número menor de publicações conseguir por sorte ou azar variar o seu índice, do que um país maior. Para entender isto basta olhar a região à esquerda no gráfico acima. São muitos países com variações muito bruscas em seus índices. E existem países com índices bastante altos que não parecem fazer muito sentido. As Ilhas Virgens Britânicas, Vietnã, Uganda, Tonga, Gâmbia, Gibraltar e nossa vizinha Bolívia são alguns exemplos de países que registram altos valores de CpD, mas que possuem volume de publicação pouco expressivo, tornando o índice pouco confiável para significar o que quer que signifique para países bem maiores, para bem ou para mal.

É por este motivo que é sempre bom olhar para estes dados sem ocultar sua natureza bidimensional. Olhar tudo em um plano cartesiano deixa sempre bem claro o tamanho relativos dos países, e nos revela quando é que países “nanicos” estão causando ruído em nossa análise. Descartar a variável de tamanho realizando um ranqueamento empobrece os dados duplamente, primeiro pela não-linearidade desnecessária como discutido acima, e segundo por sumir completamente com a informação de tamanho do país, que tem bastante valor e não deveria ser tão facilmente abandonada.

Seleção abrupta por limiar: A forma mais simples de tentar resolver o problema da influência dos países “nanicos” em uma análise como o ranqueamento da metodologia alternativa é selecionar que países devem contar para serem ranqueados e quais devem ficar de fora com base no volume de artigos. Países “nanicos” seriam então precisamente definidos como “Países com menos de x publicações no ano”, onde x é um parâmetro escolhido pelo pesquisador.

É claro que escolher esse parâmetro torna-se o grande problema a seguir… Qual seria o parâmetro justo? Se você começar a variar esse parâmetro vai ver que seu resultado vai ir mudando, e o pior: pode mudar de maneira suave, sem te dar indicação de que há um ponto significativo que você pode usar pra fazer sua análise…

O que o limiar acaba fazendo é introduzindo mais uma transformação não-linear desnecessária, nos deixando mais longe dos fatos em nome de uma simplificação grosseira. E a não ser que seja feito com bastante cuidado, o resultado é uma análise artificial, que aponta para conclusões muito distantes dos fatos. É isto que houve na metodologia alternativa, onde o pesquisador concluiu ter havido uma enorme recessão na qualidade da ciência brasileira, enquanto que o valor do CpD do Brasil não variou tanto assim, como vimos acima.

O pesquisador do outro estudo mostrou que a Suíça mudou pouco de lugar, enquanto que o Brasil despencou. Os leitores ao lerem isto são levados a concluir, falaciosamente, que países abaixo do Brasil no ranking de 1996 devem ter evoluído muito mais do que ele no período, enquanto que o Brasil mesmo deve ter decaído…

Mas esta conclusão não é verdade pelo seguinte motivo: conforme o tempo passa, alguns dos países que eram nanicos deixam de ser. O tal limiar de 5 mil artigos foi aplicado naquela pesquisa em cada ano, e assim países que ultrapassaram este limiar com o tempo entram de repente no ranking, eventualmente mudando a posição de países abaixo dele sem que o índice de nenhum dos países envolvidos tenha realmente sido modificado. A figura abaixo mostra como isto ocorreu nesta pesquisa e até de forma bastante ruim para o Brasil.

Why you shouldn't simply cut-and-rank countries

Esta figura mostra em cinza países que jamais ultrapassam o limiar de 5 mil artigos no período estudado (1996-2008). Em verde temos países que sempre estiveram acima do limiar, entre ele o Brasil. Em azul temos países que partem de antes do limiar e eventualmente ultrapassam-no, porém possuem CpD menor que o do Brasil e portanto não afetariam o seu rank. Em vermelho temos países que publicaram menos de 5 mil artigos no início do período estudado mas eventualmente ultrapassaram este limiar, e também possuem CpD maior que o do Brasil em 2008. A entrada abrupta destes países em vermelho no ranqueamento faz com que o Brasil perca posições artificialmente, já que o CpD deles já era maior que o do Brasil antes deles entrarem no páreo, e portanto o Brasil já deveria estar em um nível mais baixo do ranking antes.

Os países que afetaram o rank do Brasil foram justamente aqueles ali do grupo de Portugal. Temos Portugal, Grécia, Irlanda, República Checa, Hungria, Hong Kong, Cingapura, Tailândia, Nova Zelândia, África do Sul, Argentina e México. Doze países que não faziam parte do páreo em 1996, mas foram sendo inseridos aos poucos em posições acima do Brasil fazendo nossa posição cair com o tempo de maneira completamente artificial.

A análise alternativa mostra uma queda da posição do Brasil do 19º lugar para o 34º, mas 12 posições se devem apenas a este efeito. As outras 3 faltando são perdas para a Polônia, Coréia do Sul e Taiwan. A realidade é portanto um retrato bastante diferente.

Uma análise mais adequada seria pegar o conjunto dos países ranqueados em 2008, e olhar a variação nas posições deles ao longo do tempo, sem modificar o conjunto estudado. Vamos provavelmente ver que o Brasil não muda tanto assim de posição, perdendo apenas para aqueles três, e ainda México, Argentina, África de Sul e República Checa. Seriam apenas 7 posições perdidas, e não 15. E ainda é bastante questionável o quanto seria por mérito deles ou demérito nosso. Por outro lado, se pegarmos o páreo de 1996, com limiar de 5000 artigos, os únicos países para quem perdemos são Taiwan, que é bem próximo de nós, Coréia e Polônia.

Conclusão secundária: Fica aqui portanto a crítica àquela análise, que apesar de bem-intencionada foi vitimada pelas limitações da ferramenta de consulta disponível, que não possibilita olhar para grupos de países, mas apenas fazer a limiarização ano a ano… O fato do Brasil ter um volume relativamente alto de artigos, e também de haver uma grande população de nações de volume menor e CpD maior também foi relevante. Esta distribuição dos países, e o uso da limiarização ano-a-ano causaram a introdução abrupta de países no páreo, causando intensas quedas no rank de países de menor índice de forma artificial, sem que tenham ocorrido verdadeiras variações nos valores observados.

Não duvido que possam haver sim reformas políticas que possam ser feitas no Brasil ou mesmo os outros BRICs e pesos-médios da academia para melhorarmos a qualidade de nossas produções. Mas não estamos de forma alguma vivendo qualquer tipo de catástrofe editorial.

2 Respostas to “Sobre volume e impacto de publicações brasileiras”

  1. Mais sobre volume e impacto de publicações internacionais « Condições suficientes e necessárias Says:

    […] de publicações internacionais By nlw0 Ainda estou mexendo nos dados que mostrei no texto Sobre volume e impacto de publicações brasileiras. Depois de ler algumas publicações, como os artigos do prof. Sylvan Katz, fiz algumas […]

  2. O acaso no ocaso « Condições suficientes e necessárias Says:

    […] acaso no ocaso Por nlw0 O primeiro texto que publiquei neste meu novo blog no WordPress foi Sobre volume e impacto de publicações brasileiras, que foi uma resposta a uma série de artigos do professor Marcelo Hermes. Ele publicou […]

Deixe um comentário