Existe um limite para a compactação de um arquivo de computador?
Existe. Mas alguns formatos de compressão vão além desse limite tirando pedaços estratégicos do arquivo.
Sim. Todo arquivo, da perspectiva do seu computador, é uma longa sequência de código binário, formada apenas por zeros (“0 “) e uns (“1”). O que a compactação faz, grosso modo, é vasculhar o arquivo atrás de trechos repetitivos e substituir essas repetições por algo mais curto.
Por exemplo: suponha que haja 52 ocorrências do fragmento “10101010101010101010101”. O programa salva essa sequência uma vez só, e aí coloca uma espécie de etiqueta em todos os lugares em que ela aparece, para restaurá-la no momento da descompactação.
O problema é que, se o arquivo for caótico, não haverá muitas partes repetidas, e quanto menos ordem houver, menos você pode compactá-lo. Chama-se de entropia o grau de desordem de um arquivo. Você pode entendê-la como a dificuldade de prever corretamente o próximo número do código.
Em 1948, o pai da teoria da informação, Claude Shannon, publicou o teorema da codificação da fonte, que diz, com base na entropia, exatamente o quanto é possível compactar um arquivo sem alterá-lo. Hoje, há tanto formatos de compressão lossless (“sem perda”), que respeitam o teorema, como formatos como o .mp3, em que parte dos bits se perde para sempre, removida de cantinhos onde não fará tanta falta.
No .mp3, alguns dos truques são remover frequências extremamente graves ou agudas, que nossos ouvidos não evoluíram para captar com precisão, ou tirar sons discretos que vem logo após um evento sonoro intenso (como uma cacetada no prato da bateria), pois nosso cérebro já os ignora naturalmente. Assim, é possível perder bits sem mudar sensivelmente a experiência para os ouvintes – só os mais exigentes percebem a diferença.