Tecnologia

IA no dia a dia: os novos serviços do Google, da Microsoft e da Samsung

Elas criaram novas ferramentas de inteligência artificial – que prometem ajudar no celular e no computador. Funcionam? Valem a pena? Para descobrir, testamos durante um mês.

Por Bruno Garattoni SEGUIR SEGUINDO
Atualizado em 11 mar 2024, 10h06 - Publicado em 11 mar 2024, 10h00

Ilustração 3D de dois computadores, um com uma tela do Gmail e outro do PowerPoint, e um Samsung Galaxy S24. — (Midjourney/Superinteressante)

AA inteligência artificial vai adquirir consciência. Irá dominar o mundo, revolucionar a economia, acabar com os empregos, escravizar a humanidade. Essas foram algumas das previsões feitas quando o hype do ChatGPT alcançou seu ponto mais alto, no começo de 2023. Nenhuma se concretizou, e não há sinais de que estejamos caminhando nessa direção.

Talvez porque o ChatGPT e demais “modelos de linguagem” (LLMs), apesar da fluência encantadora, tenham dois problemas centrais: eles só remixam coisas que já foram escritas, são incapazes de raciocinar ou gerar informações novas – exceto quando sofrem as chamadas “alucinações”, e inventam coisas falsas.

As gigantes da tecnologia seguem tentando resolver essas questões. Mas, enquanto não conseguem, começam a apostar em outro tipo de IA: mais específica, focada em certas tarefas do cotidiano.

O Google criou o Gemini for Workspace, que adiciona inteligência artificial ao Gmail, ao Docs, ao Sheets e ao Slides – e pode até participar de reuniões do Meet no seu lugar. A Microsoft oferece o Copilot Pro, com a mesma proposta e algumas funções mais avançadas. E a Samsung tem o Galaxy AI, que promete transformar o uso do smartphone.

Eles fazem o que prometem? Valem a pena? Usamos todos, ao longo de um mês, para descobrir.

Ao contrário do que seu nome sugere, o Galaxy AI não é um agente central, cuja inteligência perpassa tudo o que é feito no celular: trata-se de uma coleção de funções independentes, espalhadas pelos apps instalados de fábrica nos smartphones da linha Galaxy S24 (que custam a partir de R$ 5.400).

Curiosamente, a Samsung não colocou um atalho central, que dê acesso a todas as funções de IA, na home page do aparelho – a ideia é que você vá descobrindo as coisas naturalmente, conforme usa os apps.

Continua após a publicidade

Sabe quando você tira uma foto linda, mas aí percebe que alguém passou na frente bem no momento do clique? O Galaxy S24 promete uma solução.

Apertando o botão com o símbolo do Galaxy AI (azul com estrelinhas brancas), abre-se um editor de imagens com alguns truques interessantes. Dá para apagar ou reposicionar elementos das fotos de maneira bem fácil [veja no infográfico abaixo].

A IA transforma um trabalho que normalmente seria delicado e penoso, num programa como o Photoshop, numa brincadeira de poucos segundos. O resultado é surpreendente, porque a IA também faz outra coisa: ela cria conteúdo para preencher os espaços das fotos.

Veja o exemplo do infográfico. A IA conseguiu recriar a calçada, preenchendo os locais onde os dois transeuntes estavam, e também desenhou a frente do carro (que, na imagem original, estava encoberta por um dos homens).

Continua após a publicidade

O resultado não é perfeito – dando zoom na foto, vejo que a frente do carro é meio genérica, e enxergo pequenas deformações nas pedras da calçada. Além disso, a IA tem seus limites: quando tentei apagar também os carros e a moto, tudo ficou bem borrado e distorcido.

Mas, se usada com moderação, ela funciona bem. Quem sabe agora as pessoas parem de fazer fila, em pontos turísticos, para tirar selfies sozinhas – com a IA, você pode apagar quem estiver em volta.

O Galaxy S24 vem com um aplicativo, chamado Intérprete, que usa IA para traduzir conversas faladas. Útil, mas nada de mais (o Google Tradutor já faz isso). A diferença é que o celular da Samsung também traduz ligações telefônicas.

Você e a outra pessoa vão falando e o smartphone vai traduzindo tudo, para ambos (o interlocutor não precisa ter um S24), com uma voz sintetizada. Você pode escolher uma voz feminina ou masculina, ambas bem naturais – mas ainda não dá para clonar e usar a sua própria. Ao mesmo tempo em que traduz as falas, o S24 também exibe uma transcrição na tela, como se a conversa fosse um chat.

Para testar a tradução simultânea, ligo para um funcionário da Samsung na Coreia do Sul, que atende num tom meio cansado: é plena madrugada por lá.

Continua após a publicidade

Conversamos sobre amenidades (ele me diz que gosta de manjericão e de ver “K-dramas” na TV), mas o tradutor simultâneo se atrapalha um pouco: gera frases truncadas, como “trabalho em renda de corrida em três armas. Cenário de internet 10” – essa foi a resposta quando perguntei qual era o cargo dele na empresa. Em outros testes, com chamadas em inglês/português, a IA funciona muito melhor, errando bem pouco.

Mas o recurso tem uma limitação: a cada dez segundos, o S24 interrompe a pessoa que está falando, e começa a traduzir o que ela acabou de dizer. “Esse limite é por definição, para que ele possa ter agilidade na tradução, e entender quem está falando”, diz Renato Citrini, gerente de mobile experiences da Samsung. Talvez uma quantidade maior de áudio pudesse sobrecarregar a CPU do celular.

Isso também vale para outra função de IA embutida no Galaxy S24: a transcrição de áudio. O app Gravador de voz transforma em texto o que foi dito e também gera um resumo, se você quiser.

Funciona bem, mas só se o áudio estiver impecável. Vozes mais baixas/afastadas ou ruídos ambientes confundem muito a IA – numa entrevista de 15 minutos que transcrevi usando essa função, ela cometeu dezenas de erros. Se você tentar usar a IA para transcrever reuniões ou aulas da faculdade, por exemplo, poderá se frustrar com os resultados.

Isso acontece porque, assim como a tradução de chamadas, a transcrição de áudio é feita localmente, usando a CPU do próprio Galaxy S24. Isso traz privacidade e agilidade (os arquivos de áudio não precisam ser enviados para a nuvem), mas reduz bastante a precisão do resultado – pois o processo utiliza um algoritmo de IA mais simples, leve o suficiente para que o smartphone consiga executá-lo sozinho.

Continua após a publicidade

Já o navegador Samsung Internet não tem essa limitação – pois acessa o poderoso algoritmo Gemini Pro, que roda nos servidores do Google. Esse browser (que é baseado no Chromium, a versão de código aberto do Chrome) costuma ser sumariamente ignorado pela maioria das pessoas.

Mas, no Galaxy S24, ganhou uma arma poderosa. Sabe quando você abre um site e está sem tempo ou paciência de ler o texto? Basta apertar o botão Resumir, e aí o navegador da Samsung gera um sumário da página, usando o Gemini Pro.

O resultado é ótimo, e sobretudo rápido: leva 3 a 5 segundos (no Microsoft Edge, que também oferece essa função, o resumo demora agonizantes 15 a 30 segundos). O recurso de fato transforma o uso da web – depois que você se acostuma, fica difícil navegar sem.

O S24 também inclui outras funções inteligentes, como um teclado com IA embutida (que tenta ajudar a escrever) e um sistema que transforma fotos em stickers para o WhatsApp.

No geral, o pacote Galaxy AI (que também será liberado, por meio de uma atualização, para os celulares Galaxy S23, S23 FE, Z Fold 5 e Z Flip 5) não chega a ser revolucionário, mas é convincente. Traz funções de IA úteis e divertidas – que fazem o iPhone parecer meio sem graça. Tanto que a Apple já prepara uma reação [leia no quadro abaixo].

Continua após a publicidade

O outro lado do Gemini

Ao longo do ano passado, o Google correu para lançar o Gemini, sua resposta ao ChatGPT. O que você talvez não saiba é que, ao mesmo tempo, a empresa também estava desenvolvendo outro produto: o Duet AI, que foi liberado há alguns meses – e agora se chama Gemini for Workspace.

Ele roda dentro do pacote Workspace, que inclui Gmail, Google Agenda, Drive, Meet, mais os programas de escritório Docs, Sheets e Slides. Por enquanto, só está disponível na versão corporativa desse pacote.

Ou seja, a empresa onde você trabalha precisa contratar o serviço, que custa R$ 139 por pessoa por mês (mais a mensalidade do Workspace em si, cujo plano standard sai por R$ 84 mensais). O Google anunciou que, “em breve”, pessoas físicas também poderão ter acesso aos recursos dele – assinando o plano Google AI Premium, de R$ 97 mensais. É caro.

“O caro e o barato é muito relativo”, responde Alberto Zafani, diretor do Google Workspace no Brasil. “À medida que você consegue trazer um retorno na produtividade do funcionário, parece barato”, afirma. Segundo ele, empresas como Boticário, Nubank e MercadoLivre já estão testando o Gemini for Workspace.

Imagem de um notebook com o Gmail aberto na tela, com um box escrito — – (Arte, Midjourney e Reprodução/Superinteressante)

Ao habilitá-lo, os programas do pacote ganham recursos de inteligência artificial (que, por enquanto, só funcionam em inglês). No Google Docs, por exemplo, aparece um botão chamado Help me write: ele abre um prompt no qual você pode pedir ao robô que escreva sobre qualquer coisa.

Começo com o básico: um texto sobre os novos recursos de IA do Workspace. O Docs gera um texto claro e conciso – mas que, além de parecer uma propaganda, soa meio quadrado. Vejo que há um botão, chamado Refine, para a IA deixar o texto mais formal ou casual. Escolho a segunda opção. “Yo! Prepare-se para ficar chocado com a nova IA do Google Docs.”, escreve ele, em inglês.

Então peço um artigo sobre a militarização do espaço – escolho esse tema porque escrevi uma matéria a respeito na última edição da Super, e estou com o assunto na cabeça.

O texto do robô, em tom neutro e objetivo, até lembra uma reportagem, exceto por um problema: não tem rigorosamente nenhum dado novo ou interessante. É só uma sopa de obviedades (“conforme os EUA, China e Rússia navegam as águas inexploradas da guerra no espaço, é crucial reconhecer os potenciais riscos e oportunidades”, escreve o bot, em inglês). O problema se repete nos testes seguintes: os textos do Gemini for Workspace são polidos, mas vazios de informação e contexto.

Isso significa que, seja qual for a sua profissão, o Help me write provavelmente não conseguirá te ajudar muito – pois ele é apenas um gerador de texto genérico. Para ir além disso, e fornecer informações relevantes, a IA precisaria ler e analisar todos os seus outros documentos e emails de trabalho, coisa que ela ainda não faz.

Resolvo explorar os recursos de IA do Google Sheets, que ficam meio escondidos [veja no infográfico]. Crio uma planilha simples, uma tabela de produtos com alguns itens, e peço ao robô que “faça um gráfico de pizza organizando os itens por preço”.

Em vez do gráfico, a IA cria outra coisa: uma tabela pré-preenchida, com dados “falsos” para eu substituir. Aí descubro qual é o problema. Um aviso, em letrinhas pequenas, diz que a IA ainda não é capaz de analisar ou editar o conteúdo das planilhas (a mensagem afirma que isso será liberado “em breve”). Ou seja, ela é apenas um gerador de templates.

No Google Slides, a IA também é limitada: você pode pedir a ela que gere imagens para usar nas suas apresentações, e só. Útil, mas não tanto: dá para fazer a mesma coisa usando qualquer outra IA de imagem, como o Midjourney ou o DALL-E (disponível de graça no buscador Microsoft Bing).

Por enquanto, o Gemini for Workspace não vale o preço cobrado. Ele tem duas funções que poderão valer – mas ainda não estão habilitadas. A primeira promete aliviar um problemão do trabalho moderno, o excesso de reuniões.

Sabe quando você tem uma reunião do Google Meet na agenda, e aparecem os botões “Sim” e “Não”, para dizer se vai participar? Com o Gemini, há também um terceiro botão, chamado Attend for me (“vá para mim”), que manda um bot participar da reunião no seu lugar: o robô grava tudo e gera um resumo, contando quais foram os temas debatidos e quem disse o quê.

A IA pode até apresentar observações suas para as outras pessoas durante a tal reunião (ela faz isso por escrito, no início da conversa, por meio de um balãozinho de texto). O Google já demonstrou o robô de reunião – mas não diz quando ele estará liberado para uso.

O outro recurso realmente útil é o resumo de emails. Sabe quando você recebe uma mensagem de trabalho enorme, com um tijolo de texto – ou alguém da empresa te copia numa thread gigante, cujo tema você nem sabe direito qual é? Em vez de gastar tempo tentando entender, bastará apertar um botão – e a IA vai resumir tudo. Infelizmente, essa função também não está liberada.

Mas, no pacote da Microsoft, ela já está – e funciona muito bem.

A reinvenção do Office

A Microsoft começou a investir na OpenAI em 2019, quando o ChatGPT ainda era um sonho distante. Em 2023, multiplicou a aposta: colocou mais US$ 10 bilhões, integrou IA ao buscador Bing e começou a fazer o mesmo em seus outros produtos (especula-se que o Windows 12 terá inteligência artificial). Hoje, seu produto mais sofisticado é o Copilot Pro, um conjunto de ferramentas de IA integradas ao Microsoft Office.

Ao contrário do Gemini for Workspace, ele está disponível para pessoa física. Mas também não é barato: custa R$ 110 mensais, mais os R$ 36 da assinatura do Microsoft 365 (atual nome do Office).

Você pode baixar e instalar os programas do pacote no seu computador, como se fazia antigamente, ou rodar tudo online, direto no navegador (a interface e os recursos são idênticos). As funções de IA operam em português – e, em alguns pontos, são bem mais avançadas que as do Gemini.

Imagem de um notebook com o Powerpoint aberto na tela, com um box escrito — – (Arte, Midjourney e Reprodução/Superinteressante)

No Microsoft Word, por exemplo, dá para solicitar à IA que escreva textos (e também não fica grande coisa). Mas há algo muito mais útil: você pode pedir ao Copilot que resuma um documento, e fazer perguntas a ele sobre o conteúdo. Ajuda bastante a ler e entender rapidamente textos e relatórios de trabalho.

O mesmo vale para os emails: basta apertar um botão e o Outlook resume mensagens e threads inteiras. Você poderia copiar e colar os textos e as mensagens numa IA online gratuita, como o ChatGPT? Poderia. Mas, além de dar mais trabalho, isso provavelmente violaria as políticas de segurança da sua empresa (porque você estaria pegando informações internas da companhia e jogando numa ferramenta externa). Com o Copilot, não há esse problema.

No PowerPoint, a IA oferece um recurso notável: o robô gera slides inteiros, escrevendo o texto e sintetizando as imagens. Peço a ele “um slide sobre os novos prédios que serão construídos em São Paulo”, e o resultado é surpreendente [veja no infográfico]. Certamente daria para usar numa reunião, reescrevendo um pouquinho o texto – ou, dependendo da cara de pau, deixando como está.

Empolgado, peço três slides de uma vez: um sobre o custo da construção civil, outro sobre a queda na taxa de juros, com um gráfico mostrando isso, e o último sobre a piora no trânsito resultante da construção de prédios.

Aí o Copilot abre o bico: não faz nada, só me dá uma resposta por escrito com instruções bestas (“clique em Início, Novo slide e digite um título como ‘Queda no custo da construção civil’”). Ou seja: dá para enxergar o potencial da ferramenta, mas ela ainda é frágil.

Isso também vale para o Excel, onde o Copilot começa bem. Clico no botão da IA, e o robô se oferece para inserir dados de teste na minha planilha – que está em branco.

Aceito, e o Copilot cria uma tabela com oito colunas, incluindo nomes, datas, orçamentos e faturamento de várias campanhas publicitárias, separadas em categorias (como “marketing digital”, “eventos” etc.). Ok, mas nada de mais – é apenas um template, que o Gemini também é capaz de fazer. Só que o robô da Microsoft vai além.

“Qual tipo de campanha gera mais faturamento?”, pergunto por escrito, em inglês (o Excel é o único programa do pacote em que a IA ainda não fala português). O Copilot demora uns 20 segundos, mas dá a resposta certa.

Impressionado, pergunto: qual tipo de campanha dá mais lucro? Aí o robô tropeça, e só repete a resposta anterior – ele não é esperto o bastante para entender a conta, elementar, que deveria fazer (faturamento menos despesas).

Em suma: os pacotes de IA do Google e da Microsoft prometem habilidades úteis, que realmente poderão ajudar no trabalho. Mas boa parte dos recursos ainda não funciona como deveria – ou não está habilitada. Hoje, o Gemini for Workspace e o Copilot Pro estão mais para demonstrações de tecnologia do que para produtos reais, maduros. Mas devem chegar lá.

A julgar pelo ritmo da IA, e sua evolução vertiginosa nos últimos tempos, vai ser rápido.

***

A reação da Apple
Ela ainda não embarcou na onda da IA. Mas isso deve mudar logo.

Em fevereiro, o CEO Tim Cook disse a acionistas da Apple que a empresa está trabalhando em recursos de IA e irá lançá-los até o fim do ano. Acredita-se que isso vá acontecer no iOS 18, e também no Mac: a Apple adquiriu o endereço iwork.ai, indicando que o pacote de programas iWork deverá ganhar funções de inteligência artificial.

A empresa também estaria se preparando para adicionar IA ao Xcode, sua ferramenta de desenvolvimento de software – que se tornaria capaz de escrever código (como o GitHub Copilot, da Microsoft).

Nas últimas semanas, engenheiros da Apple publicaram artigos científicos apresentando dois novos algoritmos de IA. O primeiro se chama MGIE (“edição visual guiada por modelo de linguagem”), e permite editar fotos dando ordens por escrito(1).

Arte com duas imagens, uma delas sendo uma foto original de uma pessoa parada no meio da rua durante o dia, e a outra sendo a mesmo foto editada pelo MGIE, transformando o dia em noite. — – (Alexander Spatari/Getty Images e MGIE/Superinteressante)

Dá para mudar a cor do cabelo da pessoa, apagar alguém do fundo, transformar um dia chuvoso em ensolarado e fazer outros truques, simplesmente digitando isso. Os criadores liberaram uma versão experimental, que já pode ser testada online(2).

Ela tem limitações, mas grande potencial. O outro algoritmo, batizado de Keyframer, é igualmente promissor: promete transformar imagens estáticas em vídeos(3).

Fontes ⁽¹⁾ Guiding Instruction-based Image Editing via Multimodal Large Language Models. Tsu-Jui Fu e outros, 2024. ⁽²⁾ Disponível em huggingface.co/spaces/tsujuifu/ml-mgie ⁽³⁾ Keyframer: Empowering Animation Design using Large Language Models. T Tseng e outros, 2024.