O que a Internet esconde de você
O Google manipula os resultados das buscas. E, para cada site que você pode acessar, há 400 outros invisíveis.
Por André Gravatá
Para cada site que você pode visitar, existem pelo menos 400 outros que não consegue acessar. Eles existem, estão lá, mas são invisíveis. Estão presos num buraco negro digital maior do que a própria internet. A cada vez que você interage com um amigo nas redes sociais, vários outros são ignorados e têm as mensagens enterradas num enorme cemitério online. E, quando você faz uma pesquisa no Google, não recebe os resultados de fato – e sim uma versão maquiada, previamente modificada de acordo com critérios secretos. Sim, tudo isso é verdade – e não é nenhuma grande conspiração. Acontece todos os dias sem que você perceba. Pegue seu chapéu de Indiana Jones e vamos explorar a web perdida.
Primeira parada: Facebook. Quando você acessa a sua conta, a primeira tela que aparece é a do chamado Feed de notícias – aquela lista com os últimos comentários e links postados pelos seus amigos. Essa página é editada pelo Facebook, e só inclui as mensagens das pessoas com as quais você mais interage. Você pode anular essa edição – basta clicar no link “Mais recentes” e o Facebook mostrará, em ordem cronológica, todas as mensagens de todos os seus contatos. O problema é que isso lotará o seu feed de lixo, com grande quantidade de atualizações irrelevantes (o que interessa se aquele seu ex-colega que você não vê há anos trocou de namorada ou está saindo de férias?). Conclusão: a edição de conteúdo feita pelos robôs do Facebook é boa para você. Exceto quando não é.
O escritor americano Eli Pariser apoia o partido Democrata, de Barack Obama, mas também tem amigos que votam no partido Republicano. De um dia para o outro, Pariser notou que os republicanos sumiram do seu Facebook. Ele estranhou e foi fuçar na configuração do site, achando que tivesse feito algo errado. Que nada: os robôs é que tinham decidido que ele não precisava ter amigos de direita. O Facebook tomou uma decisão político-ideológica e a impôs ao usuário. “A personalização da internet reforça os estereótipos e as crenças que a pessoa já tem”, explica Viktor Mayer-Schoenberger, pesquisador de internet da Universidade de Oxford.
Em outros casos, os robôs do Facebook podem causar conflitos familiares. Foi o que aconteceu com o analista de sistemas Rodolfo Marques. Seu irmão, Diogo, é músico e postou um clipe no Facebook. Mas Rodolfo nem ficou sabendo – só porque, como ele não costumava falar com Diogo pela internet, os robôs deduziram que não se tratava de uma pessoa importante. “Achei que ele não tinha gostado do vídeo”, conta Diogo.
O Google também manipula o que você vê na internet: cada pessoa pode receber um resultado diferente para a mesma pesquisa. O buscador usa critérios como o histórico das páginas que a pessoa visitou, o lugar onde ela está e até o navegador que utiliza. Ao todo, o Google aplica mais de 100 variáveis (elas são mantidas em segredo para que outros buscadores não as copiem) para personalizar os resultados.
E isso tem consequências profundas. Numa experiência feita pela Universidade de Londres, os cientistas criaram 3 personagens fictícios, que foram batizados de Immanuel Kant, Friedrich Nietzsche e Michel Foucault – 3 dos maiores filósofos de todos os tempos. Cada personagem usava o Google para fazer pesquisas sobre os próprios livros. A intenção era induzir o site a traçar um perfil psicológico de cada um deles. Deu certo. Depois de alguns dias, o Google começou a gerar resultados completamente diferentes para as mesmas buscas. E isso acontece com todo mundo, todos os dias.
“Os usuários podem desabilitar a personalização”, defende-se Kumiko Hidaka, gerente global do Facebook. O Google também permite isso (veja em abr.io/1IMA como fazer). Mas o que os sites de busca escondem do usuário é só uma parte do problema. Outro, talvez ainda maior, é o que nem eles mesmos conseguem ver.
No fundo da web
Quando você faz uma busca no Google, ele não sai percorrendo a internet inteira à procura da informação que você quer. Seria muito demorado. O Google consulta seu Índex, um acervo com cópias de 46 bilhões de páginas da internet.
É uma enormidade. Mas é muito menos do que realmente existe por aí. Nada do que é postado no Facebook, que tem 750 milhões de usuários e é a maior rede social de todos os tempos, aparece nos resultados do Google. Estima-se que o Google e os demais buscadores só consigam acessar 0,2% de toda a informação realmente contida na rede. Todas as demais páginas, que ninguém sabe exatamente quantas são e onde estão, formam a chamada deep web – a web profunda. Esses sites ocultos ficam escondidos por vários motivos. Se uma página exigir assinatura e for protegida com senha (como sites de jornais e revistas), os robôs rastreadores do Google não conseguem entrar nela, e não a copiam para o Índex. O Facebook bloqueia a entrada dos robôs do Google, pois não quer que seu conteúdo apareça no buscador (o que poderia roubar audiência do Facebook). Também há bases de dados online que não estão em HTML – linguagem que o Google entende.
Se o Google conseguir desbravar a web profunda, a vida vai ficar muito diferente. Não haverá mais sites especializados em busca de hotéis, imóveis, passagens aéreas etc. Você não precisará entrar na página da Receita para saber se liberaram a restituição de imposto – bastará digitar seu CPF no Google – nem acessar o site do plano de saúde para procurar um médico. Tudo isso, e todo o resto, estará no próprio Google.
Ele já tem uma equipe de pesquisadores tentando explorar essa internet perdida. O time é liderado por Alon Halevy, cientista da computação da Universidade de Washington. “Nós desenvolvemos softwares que conseguem encontrar as informações de maneira mais inteligente”, diz Halevy. Como? Uma das principais táticas dos robôs do Google é o chute.
Sim, chute. Quando encontra um banco de dados que não entende, o robô começa a procurar vários termos: “apartamento”, “conversível” e “lycra”, por exemplo. Se a palavra “apartamento” estiver presente, é porque aquele site contém informações sobre imóveis. Se “conversível” funcionar, é porque se trata de uma tabela com preços de carros. E por aí vai. Sabendo do que se trata, o Google consegue adicionar as informações a seu Índex – e colocá-las ao alcance de todo mundo.
O problema é que as informações estão espalhadas pela web de maneira caótica, e achá-las é como descobrir uma agulha num palheiro. “Precisamos de um rastreador mais eficiente”, explica a brasileira Juliana Freire, professora da Universidade de Utah. Ela é a criadora do DeepPeep, um projeto que pretende tornar acessíveis todos os bancos de dados da internet.
Com tanta informação perdida ou oculta, a internet ainda está longe de alcançar todo o seu potencial. Ela pode, precisa e vai ficar muito melhor. Enquanto não fica, crie o hábito de ir além dos seus sites preferidos e reserve um tempinho para explorar os cantos da internet que você não conhece. Se Nietzsche, Foucault e Kant estivessem vivos, eles certamente fariam isso.
Para saber mais
The Filter Bubble: What the Internet Is Hiding from You
Eli Pariser, Penguin Press, 2011.