O que o Google ignora quando faz buscas na internet?
Salve Oráculo e toda vossa estrogonófica graça do Saber indizível e imensurável: existe algum assunto que seu arquirrival, o Google, ignore? (E não vale dizer que vcs são brothers…) Guto Cabral, São João de Meriti, RJ Não é o Google. Pobre estrogonoficamente automatizado Google, aquele que ignora tudo o que não foi encontrado pelos seus […]
Salve Oráculo e toda vossa estrogonófica graça do Saber indizível e imensurável: existe algum assunto que seu arquirrival, o Google, ignore? (E não vale dizer que vcs são brothers…)
Guto Cabral, São João de Meriti, RJ
Não é o Google.
Pobre estrogonoficamente automatizado Google, aquele que ignora tudo o que não foi encontrado pelos seus robôs e também aquilo que, mesmo encontrando, resolve não te mostrar.
ALAUMITCHU EQUISPLEIN:
Quando alguém faz uma pesquisa, na verdade não está procurando em toda a internet, mas sim num índice que o Google cria com os sites que ele conseguiu achar. Para fazer esse índice, que funciona como uma biblioteca em constante expansão, os engenheiros usam programas chamados indexadores (ou spiders, aranha em inglês). Os spiders começam buscando algumas páginas, depois seguem os links dessas páginas e buscam aquelas para as quais elas direcionam, e depois os links, e depois as direções, e assim sucessivamente, até grande parte da web ser indexada. O resultado são bilhões de páginas armazenadas em milhões de máquinas. Quando alguém tecla uma pesquisa no site do Google, o software busca no índice para encontrar o que inclui os termos digitados. E aí está a primeira coisa que ele ignora: tudo o que não foi indexado por seus spiders.
Mas quais os critérios para algo ser selecionado ou não? Bem, alguns sites simplesmente não querem ser encontrados por qualquer pessoa. Um tal de arquivo robots.txt, quando adicionado ao site, funciona como filtro para os robôs buscadores. Os webmasters podem, com ele, controlar as permissões de acesso a determinadas páginas. Outra forma de não entrar para a lista é o Google não conseguir encontrar nenhum link que aponte para o site.
O segundo motivo de ignorância googleiana é a lei. Tudo que viola as leis nacionais e internacionais não aparecerá na busca. O que é protegido por copyright, como músicas e filmes, além de outras ilegalidades mais sinistras como pornografia infantil, pode até ser encontrado, mas será ignorado na apresentação dos resultados, com exceção de alguns deslizes.
O terceiro é o que viola os padrões da web. Existe um regulamento, mantido pela The World Wide Web Consortium – ou apenas W3C – que diz como a web deve ser e se comportar. Se não está nos padrões, ou se está fora da web, não existe para o Google. Nessa categoria está a já famosa Deep Web, aquele canto obscuro da internet.
Outro ponto importante é que o Google não entende a semântica das coisas, jovem fluminense. Ele não é sensível como eu, então não é capaz de ver o que está em imagens sem uma legenda correspondente. Quer dizer, ele até consegue ler um arquivo, mas não entende, somente pela imagem, o que há na foto. É por isso que, mesmo quando indexada, uma imagem pode não ser apresentada como resultado de pesquisa sem uma legenda correspondente. Quer testar? Procure por discreto no Google Images. Já aviso que é NSPT (Não é Seguro Para o Trabalho) ou, como vocês aprendizes teclam, NSFW.
(Ah, websites com spam, malwares ou com vírus ficam de fora das buscas também.)
Fontes: Marco Baumann, analista de sistemas e CEO da W16, especializada em otimização de performance web; Daniel Imamura, analista SEO, e Google
Foto: Wikimedia Commons