Por dentro do Minecraft
Ele é o game mais popular de todos os tempos, com mais de 300 milhões de cópias vendidas. Ganhou um filme, vai virar série da Netflix, continua fazendo muito sucesso. Mas também se tornou o primeiro alvo de uma tendência que pode virar do avesso a indústria de games: IAs capazes de criar jogos sozinhas.

No começo, é até meio difícil de entender. Quando você abre Dwarf Fortress pela primeira vez, parece que a tela está bugada – é que todos os elementos desse jogo, lançado em 2006 pelos irmãos americanos Zach e Tarn Adams, são desenhados com caracteres de texto. Você vê um mapa, de cima, coalhado de letrinhas que representam árvores, rios, fortalezas e seres que vivem nelas.
A aparência espartana esconde uma mecânica de jogo sofisticada, com vários biomas e geologias, recursos naturais e condições climáticas que influenciam a ação. Dá para perceber por que Dwarf Fortress conquistou uma pequena legião de fãs – entre eles, o sueco Markus Persson.
Filho de pais separados, com uma infância difícil (o pai foi morar em uma cabana no mato e mergulhou no alcoolismo), Persson escapava da realidade rodando games no antigo Commodore 128 da família. Era introvertido e teve uma adolescência solitária, jogando e programando.
Seu primeiro emprego foi como web designer. Mas, nas horas vagas, Persson e um amigo criaram um jogo: Wurm Online, um mundo medieval onde era possível construir cidades e fazer negócios. A dupla fundou uma empresinha, batizada de Mojang (“engenhoca”, em sueco), para lançar o game em 2006. Ele vendeu bem o suficiente para que os dois largassem seus empregos.
Mas Persson resolveu sair da sociedade – levando consigo o nome Mojang, que pretendia usar em outros projetos. Foi trabalhar no estúdio sueco King (empresa que, anos mais tarde, criaria o megassucesso Candy Crush), enquanto pensava no próximo passo. Em abril de 2009, as peças se encaixaram.
Literalmente. Persson descobriu um jogo chamado Infiniminer, que se passa num mundo 3D feito de bloquinhos, nos quais você cava para encontrar minérios, e os utiliza para erguer construções. Ele teve uma sacada: juntar aquela estética simples e amigável com a sofisticação de Dwarf Fortress.
Passou algumas semanas trabalhando freneticamente, e em maio lançou Minecraft: um jogo em que você minera (mine) recursos e constrói (craft) coisas. Persson tinha 30 anos, e não podia imaginar o que viria pela frente. Mesmo ainda estando em versão alfa, bem incompleto, Minecraft explodiu. Em meados de 2011, já tinha 10 milhões de jogadores.
Apesar da grande semelhança visual com Infiniminer, seu autor não processou Persson. O sueco montou uma empresa, a nova Mojang, para desenvolver o jogo. E ela começou a fazer muito dinheiro – em 2013, faturou US$ 330 milhões.
No ano seguinte, mais ainda: Persson vendeu a Mojang e seu game para a Microsoft, por US$ 2,5 bilhões. De lá para cá, Minecraft se tornou o jogo mais popular de todos os tempos, com mais de 300 milhões de cópias vendidas e versões para praticamente todos os consoles e sistemas operacionais.

Diferentemente do que sua aparência fofinha pode sugerir, ele não é (só) coisa de criança. A Mojang não revela a idade média dos jogadores, mas, em 2019, uma executiva da Microsoft fez isso: 24 anos, contou ela à revista inglesa Edge.
O jogo ganhou o próprio filme, vai virar uma série de animação na Netflix e já foi até objeto de artigos científicos – como um publicado em 2018 por dois economistas ingleses (1), que estudaram a distribuição de recursos virtuais entre os jogadores de Minecraft (cujos servidores, disseram eles, representam “um exemplo de economia de mercado pura”, e apresentam “maior desigualdade de riqueza do que qualquer nação”).

“O Minecraft é um conto de fadas dos games independentes”, diz Agnes Larsson, a diretora do jogo. “Começou muito pequeno, e hoje alcança muitos milhões de pessoas pelo mundo.” Ela tem mestrado em física pela Universidade de Linköping (cidade de 170 mil habitantes no sul da Suécia), e trabalhou três anos numa empresa sueca de software antes de ser contratada como programadora pela Mojang, em 2016.
Estamos na sede do estúdio, um predinho de tijolo aparente no cais de Södermalm, uma das 14 ilhas que formam a cidade de Estocolmo (para onde viajei a convite da Microsoft).
Larsson anda descalça pelo escritório, e fala sobre Minecraft com um entusiasmo quase infantil – tom ecoado pela decoração do estúdio, em que devkits do Xbox (versões especiais do console, usadas para rodar games em desenvolvimento) dividem espaço com bonequinhos e versões de pelúcia das criaturas do jogo.
Aqui trabalham cerca de 200 pessoas, distribuídas em seis andares conectados por uma minúscula escada caracol (tão estreita que é preciso avisar, gritando entre um andar e outro, quando você vai subir ou descer) e um curioso elevador, que para no andar três e meio – ele dá acesso a uma das entradas do estúdio, acompanhando o desnível do terreno.
A sede também tem uma minibiblioteca, com guias de programação e livros com ilustrações de games clássicos, como Zelda e God of War, além de exemplares dos vários anuários de Minecraft publicados pelo estúdio.
Mas no centro da estante, em destaque máximo, há uma obra que destoa um pouco: um exemplar de Hit Refresh (no Brasil, lançado com o título Aperte o F5), escrito por Satya Nadella, CEO da Microsoft.
É um típico livro “de firma”, cheio de jargões e ideias sobre inovação empresarial, e claramente foi colocado ali para chamar a atenção do pessoal da Mojang – ainda mais porque, como está escrito na capa, trata-se de um exemplar da employee edition, exclusiva para funcionários da Microsoft. A gigante manteve a autonomia dos suecos, mas sua presença se faz notar.
Esse lado mais corporativo é representado pela produtora-executiva de Minecraft, Ingela Garneij: uma mestra em ciências da computação que se especializou em gestão de projetos e está na Mojang há quatro anos (veio da King, onde trabalhava em Candy Crush).
Apesar da postura formal, e de estar ladeada por dois assessores de imprensa, ela é surpreendentemente franca ao apresentar o novo modo Vibrant Visuals, que deve ser lançado nos próximos meses e melhora os gráficos do jogo [veja exemplo abaixo].
“Nós estamos trabalhando nisso há anos e anos, e tem sido difícil. Fomos evoluindo e aprendendo, fracassando e melhorando as coisas”, diz.
Garneij se refere ao Minecraft RTX, um modo que foi liberado em 2019 e também incrementava o visual do jogo – mas que, na prática, pouca gente conseguiu rodar, porque ele travava e era pesado demais para os computadores da época. “Houve alguns passos errados”, admite a americana Madeline Psenka, gerente da Microsoft que supervisiona o trabalho da Mojang Studios.
O modo Vibrant Visuals inclui melhorias na iluminação (a luz do Sol fica mais realista, e os elementos do jogo formam sombras), e realmente faz uma diferença grande – mas sem descaracterizar a estética tradicional de Minecraft.
“Nós queremos inspirar os jogadores a ser criativos, e isso inclui o visual”, explica Larsson. “Como o mundo é feito de blocos e tem essa aparência simples, fica fácil construir coisas bonitas”, diz ela, que se empolga ao mostrar a outra novidade do jogo: um bicho voador chamado Happy Ghast, que cria vida 20 minutos após ser molhado. A meta do estúdio é lançar quatro pacotes de atualizações por ano.

Vejo na parede uma placa comemorativa do YouTube, celebrando 1 trilhão de visualizações de vídeos de Minecraft. Ela é de 2021; hoje, o número acumulado já passou de 1,5 trilhão. É como se cada uma das 8,2 bilhões de pessoas presentes na Terra, sem exceção, já tivesse visto 183 clipes do jogo.
Os humanos não foram os únicos. Uma IA também se empanturrou de vídeos de Minecraft, e se tornou capaz de fazer algo extraordinário – que, no futuro, talvez possa virar do avesso a indústria de games.
Observação e síntese
As IAs de conversação, como o ChatGPT, funcionam mais ou menos da seguinte forma. Primeiro, são alimentadas com quantidades astronômicas de texto: todo o conteúdo da internet, além de todos os livros e outros materiais escritos que os criadores da IA conseguirem arranjar.
O algoritmo escaneia os textos e converte as palavras em tokens: números que identificam cada uma delas. O algoritmo GPT-4(o), da OpenAI, transforma a frase “amanhã vai fazer sol”, por exemplo, na seguinte sequência de tokens: 7601, 46160, 12156, 13259, 1887, 220.
Já a frase “vai fazer sol amanhã”, quase idêntica, vira a sequência 117597, 13259, 1887, 139907, 220. Repare que os próprios tokens são diferentes (não é só a ordem deles que muda). Isso acontece porque, além de representar as palavras, esses códigos também variam conforme a posição e o contexto delas nas frases.
As IAs modernas trabalham com muitos tokens: estima-se que o GPT-4(o) tenha mais de 1 trilhão deles gravados na memória. O algoritmo analisa tudo isso e consegue determinar, estatisticamente, quais palavras costumam aparecer juntas em textos escritos por humanos.
Quando você entra no ChatGPT e digita alguma coisa, ele lê a sua pergunta e monta uma resposta usando palavras que tenham sido usadas em textos sobre aquele assunto. A mágica é essa.
E ela não serve apenas para texto. Em outubro de 2020, um grupo de pesquisadores do Google publicou um artigo científico (2) mostrando que também era possível usar um algoritmo do tipo transformer (o mesmo que seria empregado, anos mais tarde, no ChatGPT e nas demais IAs de conversação) para analisar imagens.
Se você alimentar o algoritmo com uma foto, por exemplo, ele pode transformar os pontinhos que formam aquela imagem em tokens. Repita esse processo com muitas fotos, ou mesmo com vídeos (que são sequências de imagens estáticas, afinal), e eventualmente você terá uma IA capaz de criar imagens ou vídeos a partir das ordens do usuário.
Essa é a lógica usada nas IAs geradoras de fotos e ilustrações, como Midjourney e DALL-E. Nos últimos dois anos, essa tecnologia se tornou bem comum. Mas, com vídeos, a coisa é mais difícil, pois a tarefa requer muito poder de processamento.
É por isso que até hoje, mais de um ano após apresentar a Sora, sua IA geradora de vídeos, a OpenAI ainda limita bastante o acesso a ela (só os assinantes do ChatGPT pago podem usá-la, e para criar clipes de no máximo 20 segundos).
Mas a startup americana Decart diz ter resolvido esse problema: seu algoritmo de síntese de imagens, o Oasis, é exponencialmente mais rápido do que os outros. Ao contrário dos concorrentes, que demoram vários segundos ou minutos para fazer uma imagem ou clipe, o Oasis consegue produzir 25 imagens por segundo – o suficiente para gerar vídeo em tempo real.
E a empresa escolheu mostrar isso de um jeito curioso: usou sua IA para clonar Minecraft.

O Oasis foi alimentado com milhões de horas de vídeos do jogo, e se tornou capaz de recriá-lo. No site da Decart (oasis.decart.ai), você pode jogar um Minecraft sintetizado em tempo real pela IA: a cada comando que você dá no game, como andar, pular ou marretar um tijolinho, o algoritmo consulta seu banco de dados e gera as imagens seguintes, que refletem as consequências das suas ações (mostrando aquele tijolinho quebrado, por exemplo).
Dá até para enviar uma foto e transformá-la num cenário de Minecraft – dentro do qual você joga.
O resultado está longe de ser perfeito. A resolução é baixa, o que deixa tudo meio borrado, e com frequência o Oasis “esquece” elementos do cenário: quando você passa por um determinado ponto e depois se vira para revê-lo, as coisas (como uma árvore, por exemplo) simplesmente não estão mais lá.
E o cenário customizado, que a IA gera a partir de uma foto, é muito instável: enviei uma imagem da avenida Paulista e o Oasis gerou uma versão Minecraft dela, até que bem convincente – mas, após 10 segundos, a imagem já começou a se desmanchar, o que rapidamente tornou o game impossível de jogar (ele logo virou um borrão psicodélico).
O Oasis não é um jogo de verdade, é uma demonstração de tecnologia. E, nisso, ele é bastante impressionante: mostra que, no futuro, talvez seja possível produzir games usando IA, o que reduziria a necessidade de contratar desenvolvedores e fazer os pesados investimentos que vêm sufocando a indústria de games (os jogos mais elaborados, triple A, exigem centenas de milhões de dólares).
Mas o objetivo da Decart – que não tem qualquer relação com a Microsoft ou a Mojang Studios – é outro: ela não trabalha com games, mas com otimização de IA. Só usou Minecraft para mostrar como o seu algoritmo é rápido.
A Microsoft, por outro lado, enxerga potencial na tecnologia de games por IA. Em fevereiro, cientistas da empresa publicaram um artigo (3) apresentando o Wham (World and Human Action Model), um algoritmo de IA capaz de “gerar sequências consistentes de gameplay” a partir de uma imagem.
Basta fornecer a ele de 1 a 5 ilustrações, que contenham um cenário e um personagem, e o software transforma aquilo num jogo de ação 3D.
A lógica é similar à do Oasis: a IA consegue prever, e desenhar, os próximos segundos da imagem de acordo com as ações do jogador. Os pesquisadores divulgaram vídeos (4) mostrando os resultados, que são notáveis: o cenário e os personagens funcionam como esperado (os gráficos também são bons, parecem uma versão simplificada de Fortnite).
Em abril, a Microsoft deu o passo seguinte, e liberou na internet uma versão de Quake 2 (clássico jogo de tiro, lançado em 1997) gerada em tempo real por IA – ela pode ser jogada no site copilot.microsoft.com/wham.
A tecnologia ainda tem limitações. A resolução da imagem é baixa, e (como também acontece no Minecraft gerado por IA) o algoritmo “esquece” elementos do cenário depois que você passa por eles.
O Google diz ter resolvido esse problema: está desenvolvendo uma IA de criação de games, a Genie 2, que supostamente consegue gerar cenários estáveis, sem esquecer das coisas. Mas, por enquanto, só consegue sustentar 1 minuto de jogo.
Considerando a rápida evolução da IA nos últimos anos, não é difícil enxergar um futuro em que esses problemas são superados – e a inteligência artificial passa a fazer parte do trabalho dos desenvolvedores de games. Ou todo o trabalho. Daqui a cinco ou dez anos, vamos estar jogando games produzidos por IA?
“O que é o Minecraft? Nós temos que estar aqui, cara a cara, para entender os valores, os princípios, o ecossistema, a mitologia [do jogo]. Isso é muito difícil de criar usando IA”, responde Larsson.
Depois dessa resposta antropocêntrica e tranquilizadora, ela pede licença e vai embora. Precisa gravar vídeos para o Minecraft Live: um evento online apresentando as novidades do jogo, que seria transmitido dali a alguns dias no YouTube, e visto por 8 milhões de pessoas. Os fãs de Minecraft seguem de olho nele – e as IAs também.
***
Fontes (1) “Minecraft Economics: A Study of Wealth Inequality in a Virtual World”, C Blackwell e J Carroll, 2018; (2) “An image is worth 16 x 16 words: transformers for image recognition at scale”, A Dosovitsky e outros, 2020. (3) “World and Human Action Models towards gameplay ideation”, A Kanervisto e outros, 2025; (4) www.microsoft.com/en-us/research/blog/introducing-muse-our-first-generative-ai-model-designed-for-gameplay-ideation/.