Algoritmo prevê o rumo da pandemia através de tweets e pesquisas no Google
Os dados da pandemia estão sempre defasados – seja pela demora ou ausência dos testes, seja pela manifestação dos sintomas até 14 dias após a infecção. Mas Harvard deu um jeito no problema.
Desde que a pandemia começou, pesquisadores de todo o mundo vêm montando modelos estatísticos para tentar acompanhar a evolução de número de casos e prever o pico e possíveis novos surtos da covid-19. Com vários países reabrindo suas economias após controlarem o grosso do problema, esses modelos são essenciais para tentar evitar que a crise ressurja com tudo.
Desenvolver modelos que consigam prever o comportamento da curva de casos é no mínimo complicado, especialmente porque eles geralmente se baseiam em dados oficias, que sofrem com a subnotificação e a falta de exames.
Além disso, esses números estão quase sempre atrasados: sabemos que o vírus pode demorar em média 14 dias para causar sintomas nas vítimas. Isso significa que, além das pessoas computadas, muitas outras já estão carregando o vírus e o espalhando por aí, e só entrarão para as estatísticas muitos dias depois.
Para tentar contornar isso, uma equipe de cientistas da Universidade Harvard propôs um modelo que consegue prever surtos com até duas semanas de antecedência, segundo os pesquisadores. Isso porque ele não se baseia em dados oficias de exames ou mortes, mas sim em uma base de dados própria que reúne informações de buscas onlines na internet, dados de localização de smartphones e até mesmo posts no Twitter.
Em um estudo que ainda não foi revisado por colegas de profissão – uma prática obrigatória chamada revisão por pares –, os cientistas detalham a metodologia criada para acompanhar os casos. A ideia é reunir vários dados diferentes e em tempo real para prever um aumento de casos de acordo com o comportamento das pessoas na internet e fora delas.
O primeiro tipo de dado é o número de pesquisas no Google. Por exemplo, se um pico de pesquisas de termos como “febre alta”, “tosse”, “dificuldade para respirar” e “perda de olfato” for identificado em uma região, isso pode significar que muitas pessoas estão procurando informações sobre seus próprios sintomas antes de irem a um médico, o que forneceria dados sobre pacientes antes deles serem diagnosticados.
Obviamente, isso não significa que todo mundo que procure informações sobre “febre” no Google esteja com Covid. É por isso que o modelo utiliza vários outros dados para complementar a análise. A ideia de usar pesquisas online para fins epidemiológicos não é nada nova – em 2008, o próprio Google lançou o Google Flu Trends, um algoritmo que usava a mesma lógica para prever a curva de casos da gripe. Mas, por se basear apenas em uma variável, o projeto não funcionou como o esperado e foi descontinuado em 2015.
O novo modelo propõe que também outros dados sejam usados, como por exemplo posts feitos no Twitter que tenham alguma relação com a covid-19 e sejam geolocalizados, além de dados da localização de smartphones anônimos para calcular a porcentagem da população que está cumprindo o isolamento social em determinada região (isso já é utilizado por vários governos no mundo e no Brasil).
Além do pássaro azul, outra rede social também integra o modelo, menos conhecida pelo público geral: a UpToDate, uma plataforma que reúne informações médicas (uma espécie de Google voltado só para medicina). A ideia aqui é também monitorar as buscas por informações feitas por profissionais de saúde.
Por fim, o modelo também reúne dados do Smart Thermometer da empresa Kinsa, um termômetro que mede a temperatura e está conectado a um app no celular do usuário, armazenando o resultado da medição em um banco de dados próprio. Com isso, a equipe consegue procurar por picos de febre entre quem tem esse sofisticado dispositivo.
No estudo, a equipe relata os testes que foram feitos para ver se o modelo funcionaria retroativamente, tentando prever surtos que já sabíamos que haviam ocorrido com base em dados disponíveis semanas antes. E os resultados mostraram que sim: em Nova York, por exemplo, os tweets sobre a covid-19 e possíveis sinais da doença aumentaram rapidamente uma semana antes da explosão de casos no meados de março.
De forma similar, um aumento nas pesquisas do Google analisadas e nas medições da empresa Kinsa foi observado dias antes do surto que lotou hospitais na cidade. Juntando todos os dados, o algoritmo conseguiu antecipar surtos em 21 dias, em média.
“Na maioria dos modelos sobre doenças infecciosas, você projeta diferentes cenários com base em suposições anteriores”, explicou ao The New York Times Mauricio Santillana, professor de pediatria e epidemiologia em Harvard e um dos autores do estudo. “O que fazemos aqui é observar, sem fazer suposições. A diferença é que nosso método responde a mudanças imediatas de comportamento e conseguimos incorporá-las [ao modelo].”
Santillana também lembrou que a ideia não é substituir os modelos atuais que utilizam dados de casos reais, mas sim oferecer uma análise mais ampla da pandemia. E afirmou que adoraria ter outras bases de dados de empresas privadas e redes sociais para contribuir com o aprimoramento do projeto.
Se o modelo vai funcionar ou não, não sabemos – ele ainda não foi adotado oficialmente por nenhum órgão público. Há a possibilidade de que, a medida que a pandemia avance, a população geral comece a ficar cada vez mais familiarizada com o vírus e pesquisar ou twittar cada vez menos sobre ele, o que afetaria os resultados finais.
Além disso, dados como os coletados não conseguem prever eventos sociais inesperados, como foram os protestos em massa contra o racismo que despontaram nos EUA recentemente e geraram aglomerações. O jeito é esperar para ver se o projeto se validará. Pelo menos já temos uma pista para ficar de olho: o modelo atualmente diz que os estados de Nebraska e New Hampshire nos Estados Unidos vão ter um aumento considerável em seus casos nas próximas semanas se nada for feito. Atualmente, as regiões apresentam números de novos casos considerados estáveis.