A tecnologia é usada como diferenciador

Depois de uma estreia polêmica com associação a conteúdo pornô, em 2017, os deepfakes (cópias digitais muito parecidas com as autênticas) começaram agora a ser adotados pelo mundo corporativo. Eles são o exemplo mais recente de comercialização de áudio e imagem criados por inteligência artificial — isso foi possível porque eles se tornaram mais convincentes, comerciais e fáceis de fazer.

De acordo com o Canaltech, alguns sócios da consultoria EY (antiga Ernst & Young) estão entre os pioneiros: eles têm usado clipes feitos com a tecnologia em apresentações e e-mails cotidianos. O uso da técnica, com o auxílio da startup Synthesia, substitui estratégias tradicionais, prejudicadas pela pandemia. Afinal, atualmente, almoços longos são perigosos e vídeochamadas e PDFs, muito triviais.

Um sócio da EY que não fala japonês, por exemplo, usou o tradutor da ferramenta da Synthesia para falar a língua nativa de um cliente no Japão. Aparentemente, foi uma boa aposta. Jared Reeder, que atua no setor de criatividade e assistência técnica da EY, diz que os vídeos são uma forma eficiente de interação com os clientes. “É como apresentar um filhote pela câmera. Todos ficam mais receptivos.”

Reeder conta que a tecnologia é usada como diferenciador. Nos últimos meses, o profissional de criatividade se especializou em fazer dublês dos colegas de trabalho com inteligência artificial. “Em vez de mandar um e-mail para confirmar uma reunião, o destinatário pode ver e ouvir o remetente”, explica.

Um novo nome
Ainda de acordo com a matéria do Canaltech, além da função, o nome também mudou: na EY os avatares são chamados de identidade de realidade artificial (artificial reality identity, em inglês) em vez de deepfakes. A companhia já ajuda alguns de seus clientes de consultoria a fazerem clipes sintéticos para anúncios internos.

A primeira ARI da EY foi criada em março para uma proposta que seria apresentada a um cliente. Quando o negócio foi fechado, o avatar ficou famoso por ter ajudado. Outros sócios, então, solicitaram dublês de si mesmos. Até o momento, Reeder e equipe fizeram ARIs para oito sócios.

O processo é simples: o indivíduo senta em frente a uma câmera por cerca de 40 minutos enquanto lê um roteiro especial. Os algoritmos da Synthesia, então, captam os movimentos e a forma como o personagem pronuncia diferentes fonemas para imitar sua aparência e sua voz. Depois, basta escrever o que o avatar tem de falar para que seu vídeo seja criado.

Segundo a EY, o acesso à ferramenta é controlado, para evitar uso não autorizado ou inadequado. A consultoria planeja continuar os experimentos com os clones digitais, mas Anita Woolley, psicóloga e professora da Universidade Carnegie Mellon, diz que os clipes com a tecnologia podem parecer estranhos.

Segundo ela, a corrida para esses vídeos pode ser um erro. Evidências sugerem que chamadas de vídeo podem tornar a comunicação e a solução de problemas mais difícil, porque o visual pode distrair. “Quando a tecnologia apresenta uma aparência humana, a distância entre aconchegante e assustador é mínima”, diz.

Reeder avalia que os clipes sintéticos podem ampliar o toque humano, mas alguns de seus colegas se preocupam que ela possa desvalorizar o componente humano de seu trabalho. Ele argumenta que um executivo com muitos clientes não tem tempo para gravar vários vídeos pessoais, mas um avatar pode produzi-los em minutos. “O que é mais humano de eu mesmo dizer ‘Olá, bom dia’, com a minha voz, meus modos e meu rosto?”, pergunta ele.

FONTE: Canaltech | FOTO: Deepfake Divulgação