Como as páginas são escolhidas?

Com uma mescla de critérios objetivos (tamanho, em número de curtidas, e alcance, em média de compartilhamentos) e subjetivos — quão presentes os links para essas páginas estão nas timelines de pessoas influentes no debate público brasileiro. No início privilegiei páginas de "notícias", mas aos poucos fui aumentando o leque para movimentos/partidos políticos e pessoas.

Algumas personalidades já são tão ou mais importantes que veículos tradicionais, por critérios numéricos, em termos de influência no debate do Facebook, e pretendo acrescentar mais delas. Se você sente falta de alguma página, entre em contato.

Como funciona a escala ideológica de "direita" e "esquerda"?

Na hora de coletar os dados, cada página ganha um atributo ideológico de 1 (bastante de "esquerda") a 5 (bastante de "direita"). Ela é propositadamente bruta, sem suficiente nuance, porque o objetivo é mais apontar quão relevantes, em termos de audiência, são os extremos ideológicos do que identificar o que exatamente seria o "centro" absoluto.

Para entender melhor o que a escala mede, é mais fácil saber o que ela não leva em conta. Por exemplo:

  1. o histórico;
  2. o conteúdo inteiro do site/jornal/revista;
  3. a análise subjetiva da qualidade ou profundidade das informações.

Para dar a "nota" de cada página, fiz uma observação por um dado período nas páginas de Facebook (a "homepage"de uma quantidade cada vez maior das pessoas) em busca de:

  1. proporção de posts na página em que a chamada já deixa claro um viés político;
  2. quão proeminente é esse viés;
  3. quão distante ele está dos extremos.

As observações foram feitas a partir de algumas "coberturas de controle", como, recentemente, a crise dos presídios, a morte de Marisa Letícia e a proposta de reforma da previdência. (Um exemplo prático, aqui).

Há óbvias limitações neste modelo, mas acho que ele pode ser útil para observações automatizadas, de dados em larga escala. Um exemplo que ilustra bem os critérios e ao mesmo tempo as limitações do modelo é a classificação da Veja como "centro" (pela qual eu recebi alguns e-mails).

A revista esteve nos últimos 8 anos incontestavelmente mais à direita; em seu site, especialmente nos vídeos e colunas, ela se aproxima um pouco mais do extremo conservador no Brasil, inclusive. Mas no Facebook, onde os dados são coletados, a maior parte das postagens versam sobre assuntos em que uma identificação política não se aplica (na primeira semana de coleta, os dois posts mais compartilhados do site eram sobre os males da lichia). Paralelamente, o noticiário político tem chamadas com um estilo clássico, sem opinião/análise, como manda os manuais de jornalismo. Por último, é fácil verificar quão distante ela está dos extremos: basta analisar um post do mesmo assunto em páginas claramente enviesadas ou ver como as pessoas que se identificam nos extremos reagem à notícia, nos comentários ou nos blogs.

Entendo que por esse tipo de classificação, quase todos os grandes sites e portais são classificados como "centro", já que misturam política com pautas do cotidiano — ainda que eu entenda que analisando, mesmo que superficialmente, a composição ideológica da redação e editores é fácil atribuir algum carimbo mais decisivo. Como o objetivo do observatório é medir quão pervasivo (ou não) é o discurso polarizado, a classificação nessa escala de 1 a 5 me parece suficiente por ora.

Por último, o centro não é, necessariamente, o ideal de qualidade. Uma página que seja moderadamente de direita ou de esquerda pode produzir mais conteúdo exclusivo, análises interessantes ou reportagens aprofundadas que várias das de "centro". O mesmo pode acontecer, com menos frequência, para páginas notadamente ideológicas.

Não dá pra usar uma classificação diferente?

Certamente. O Monitor do Debate Político no Meio Digital tem uma escala distinta dos veículos jornalísticos, e algumas observações interessantes a partir disso. Como eu me concentro no Facebook, creio que as nossas análises são complementares.

Esse gráfico de "Número de compartilhamentos por inclinação política das páginas" é meio confuso. O que ele mede?

Cada post coletado pelo Facebook ganha um "selo" de viés, de acordo com a classificação prévia da página que ele foi postado. Para preparar o relatório mensal que aparece aqui, eu junto os 100 posts mais populares de cada "balde" de viés e somo os compartilhamentos. E é isso que cada barra do gráfico agrupa: a soma de compartilhamentos dos 100 posts mais compartilhados por "inclinação política" da página.

Ou seja: o gráfico não mostra que, em uma dada semana, as páginas de direita tiveram um número absoluto de compartilhamentos maior do que as páginas de esquerda, por exemplo, até porque, para dizer isso com certeza eu precisaria observar um número significativamente maior de páginas. Mas ele pode apontar que na amostra coletada — que julgo representativa — os posts de páginas de determinada coloração ideológica vitalizaram mais rápido.

Como os dados são coletados?

Escrevi scripts em Python para capturar os dados fornecidos pela API pública do Facebook. Os scripts rodam de hora em hora, alimentando um banco de dados em MongoDB. Os dados são consolidados uma vez por semana e publicados aqui.

Se isso soa alien pra você: eu pego uma lista de páginas do Facebook e, de hora em hora, meu robô vai em cada uma e vê o número de comentários, "reações" e compartilhamentos de cada post. Ele escreve esses números em uma planilha de Excel gigante, e o robô que faz o site lê a planilha pra construir as tabelas.

Os dados são confiáveis? Qual é a margem de erro?

Os dados de número de posts são públicos e, portanto, podem ser auditados: basta entrar na página e contar a quantidade de compartilhamentos de cada post, somar, e você chega aos números aqui (eu fiz isso com uma amostra pra me certificar que estava tudo certo).

A coluna "shares" mede a soma dos compartilhamentos de posts publicados durante a semana analisada. Esse número tem uma limitação: por ora, ele indica a soma dos compartilhamentos de cada post daquela página apenas nos seus primeiros três dias a partir da publicação. Usei esse método por uma questão técnica (consome menos recursos de máquina), mas também porque pela natureza dos sites analisados, de notícias, o número de compartilhamentos do post cai drasticamente depois de um dia. Então o número de "shares" representa algo como de 95% a 99% do número real.

Por que privilegiar compartilhamentos e não comentários ou likes?

A princípio, o que mais me interessa é uma mistura de "alcance" e "aderência ideológica". Como o compartilhamento do Facebook, ao contrário do Twitter, é uma coisa mais identitária (mais sobre isso aqui), o share é tanto uma medida aproximada de visualizações de página dentro do Facebook (já que quanto mais pessoas compartilharem, mais gente vai ver) quando uma métrica de quanto que aqueles posts têm ressonância com o público.

Sem uma análise de linguagem e conteúdo da postagem adequada, "reações" e comentários não são boas métricas. Se muita gente comenta xingando um veículo isso não contribui para uma métrica de alcance ou mesmo engajamento. Agora que além de "curtir" há carinhas tristes, corações e etc, a medição é um pouco mais complicada também. Mas na média o curtir e o compartilhar andam juntos, então preferi usar uma medida só. Mas isso pode ser revisitado no futuro.

O outro motivo é estético. Eu queria que a tabela fosse a mesma no desktop e numa tela de celular. Mais categorias significa mais colunas, dificultando a leitura. Mas isso pode mudar no futuro.

Esse projeto tem prazo de validade? Até quando você vai atualizar isso?

A coisa mais interessante deste meu BMW é que ele anda sozinho. Do texto introdutório até o gráfico, o título das páginas e o arquivo para download, tudo é gerado automaticamente, por um script que roda todo domingo às 7h, horário de Brasília. Mas pretendo, no futuro próximo, acrescentar outras funcionalidades.

Essa página que eu nunca ouvi falar tem um número muito grande de compartilhamentos. Não pode haver uma mutreta aí?

Poder pode, mas é improvável que a maior parte dos compartilhamentos — a principal métrica — venham de "Bots" ou perfis falsos.

É relativamente simples comprar "curtidas na página", e há uma série de empresas vendendo isso. Mas programar compartilhamentos automáticos de posts é um pouco mais complexo, e o algoritmo do Facebook é bom em identificar perfis falsos com comportamento suspeito.

Isto posto, se um post tem um alto número de compartilhamentos e poucos comentários, ou se uma página tem um número relativamente constante de interações independente do post, isso acende o alerta. Se você encontrar uma página suspeita, avise-me.

E as notícias falsas?

É extremamente difícil classificar automaticamente notícias falsas, e sou contra, a princípio, carimbar um veículo ou uma página como "fake news". Se a nota de inclinação política já é polêmica, imagino uma de "confiabilidade das notícias". Mas o assunto me interessa enormemente, e se você estiver interessado em desenvolver uma pesquisa sobre o assunto, use os dados brutos e me avise o que achou.

Como é feita a medição de "links mais compartilhados"?

O ranking usa uma métrica um pouco diferente das outras coisas da página. Ele mede, entre uma amostra dos links mais compartilhados pelas páginas que monitoro, quantos compartilhamentos eles tiveram no total. Então, um link que teve 15 mil compartilhamentos quando foi postado pelo R7 pode ter tido mais de 300 mil no total, por um efeito cascata.

Se você não sabe, o Facebook guarda quantas vezes o link foi compartilhado na rede social, independente da página. Você pode checar os números jogando qualquer link aqui.

Muita gente compartilha sem clicar na matéria. Não seria bom medir também os cliques?

Seria, mas os dados de cliques não são públicos. Para ter o número de cliques eu precisaria do consentimento de cada uma das páginas que monitoro, e nem todo mundo está disposto a abrir esses dados. Os dados mostrados aqui são todos públicos e podem ser verificáveis de maneira independente.

Por que o ___ (site pequeno que faz um trabalho jornalístico na sua opinião muito bom) não está listado?

Porque, a princípio, ele é pequeno, com menos de 50 mil curtidas. Como o objetivo não é fazer uma radiografia completa da mídia brasileira no Facebook, mas sim ter uma ideia do tipo de conteúdo que viraliza, sites pequenos aumentam a carga de processamento sem aumentar significativamente a importância da amostragem. Mas isso pode mudar no futuro.

Eu posso usar esses dados em minha pesquisa acadêmica/de trabalho?

Sim, por favor. Fique à vontade para baixar os dados brutos e pensar em coisas que não pensei, e lembre de citar. Se precisar de outro recorte, ou tiver outra ideia de dados a coletar, talvez eu possa ajudar. Entre em contato.

O código será aberto em algum momento?

Muito provavelmente. Preciso apenas organizar melhor os scripts e "documentar" tudo para que pessoas com diferentes níveis de conhecimento técnico possam implementar projetos semelhantes.

Que programas e linguagens foram usados?

Uso PyCharm para escrever código em Python 3.6; Django 1.10.5 para montar o site; Bootstrap para layout, Chart.js para fazer os gráficos; os servidores do mLab para armazenar os dados em MongoDB, Amazon Web Services para disponibilizar arquivos de acesso público, e Heroku para hospedagem e ambiente de testes.

Como eu posso ajudar?

Enquanto o site é um hobby, você pode ajudar criticando, dando sugestões para melhorar-lo ou ideias de novas funcionalidades, por e-mail. Às vezes eu demoro, mas respondo tudo.


Atualizado em 7 de fevereiro de 2017.