Cenas de um mundo inventado

questões da internet

O aplicativo Sora 2, que permite criar vídeos ultrarrealistas com o próprio rosto e o de outras pessoas, levou o perigo da desinformação a um novo patamar

A+ A- A

“Qual é seu nome, soldado?! Tá me ouvindo?! Me fala seu nome, soldado!” Quem berra é um manifestante todo vestido de preto, encapuzado, o rosto vermelho de raiva. À sua frente, um militar em traje camuflado. Pelas imagens, tudo indica se tratar de um protesto contra a ocupação de cidades americanas por tropas federais, uma das marcas de Donald Trump neste segundo mandato. Impassível, o militar do vídeo tolera os gritos até que, numa reação rápida, aperta um spray de pimenta contra o rosto do jovem e responde enfim à pergunta. Seu nome? “Sargento Pimenta!”, ele grita. A gravação, que tem menos de dez segundos, viralizou pelo trocadilho esdrúxulo – em inglês, a graça de “Sergeant Pepper” não está apenas na referência ao spray, mas também no fato de que esse é o nome de um dos álbuns mais famosos dos Beatles.

A iluminação do flash, o enquadramento vertical, os giroflex da polícia no fundo da imagem, o movimento dos corpos – tudo é muito realista, como se a pessoa que filmou estivesse ali mesmo, num protesto noturno, com o celular em mãos, a poucos centímetros da gritaria. Mas um observador atento vai notar uma pequena marca d’água que passeia pela tela. A logomarca, uma criatura com um par de olhos fofos, ao lado do nome Sora, entrega a verdade: a cena foi toda criada por inteligência artificial.

O vídeo, intitulado the original sgt. pepper, foi postado no Instagram no dia 7 de outubro por Diego Galvão, um filmmaker especializado em IAs generativas. Dias depois, já somava mais de 70 milhões de visualizações e 60 mil comentários. Além da marca d’água aplicada sobre o vídeo, uma legenda irônica indicava o uso de inteligência artificial (“nenhum prompt foi ferido durante a produção desse vídeo IA”). Ainda assim, na caixa de comentários, grande parte dos usuários parecia não se dar conta de que estavam diante de algo falso e deixavam elogios entusiasmados ao sargento fictício.

A verossimilhança da cena é uma obra do Sora 2, um gerador de vídeos mais poderoso, realista e dispendioso que seu antecessor, o Sora. Ambos foram criados pela OpenAI, dona do ChatGPT e hoje a empresa privada com maior valor de mercado do mundo, estimado recentemente em 500 bilhões de dólares. Com performance mais elogiada que a dos geradores concorrentes, como Veo (Google) e Vibes (Meta), o aplicativo foi lançado no dia 30 de setembro deste ano tendo algumas restrições iniciais de acesso. Oficialmente, até o momento, só quem pode utilizá-lo são os habitantes dos Estados Unidos e do Canadá, pelo desktop ou pelo aplicativo de celular, disponível apenas para o sistema operacional iOS. Além disso, é preciso ter recebido um convite de outro usuário. Mas essas restrições não impediram que, em questão de dias, o Sora 2 se tornasse o aplicativo mais baixado na loja da Apple, superando a marca de 1 milhão de downloads mais rapidamente do que o ChatGPT.

A novidade do Sora 2 não está apenas na maior capacidade de criar, em minutos, um vídeo realista a partir de orientações textuais. Está também em dois outros fatores. Primeiro, o aplicativo não é só um mero executor de tarefas, como o ChatGPT, mas também uma pequena rede social – um clone do TikTok, com a diferença de que todos os vídeos disponíveis ali, sempre curtos e em ritmo acelerado, foram feitos por IA. A plataforma funciona como um feed personalizado, onde é possível passar horas assistindo às produções de outros usuários, além de postar suas próprias criações.

A segunda novidade é que agora o usuário pode escanear seu rosto e sua voz para produzir vídeos protagonizados por si mesmo. Esses avatares são o que a OpenAI vem chamando de cameos. Ao criar o seu, a pessoa pode optar por deixá-lo no modo privado, mas também pode compartilhá-lo com conhecidos e, se quiser, com todo mundo. É uma aposta no potencial social dessa tecnologia, já que grupos de amigos podem brincar entre si, produzindo vídeos com os cameos uns dos outros. Tudo isso num ambiente em que a facilidade é a regra. Gerar um vídeo, com ou sem cameo, é gratuito e rápido: basta descrever uma ideia com o nível de especificidade desejado, e, dois ou três minutos depois, receber o resultado. Na versão gratuita do aplicativo, os vídeos encomendados pelo usuário têm duração de até 15 segundos. Já os assinantes Pro da OpenAI, que pagam mensalidade de duzentos dólares (pouco mais de mil reais), podem criar vídeos de até 25 segundos. É uma rede sob medida para uma geração que não quer expor a própria vida nas redes sociais, mas deseja seguir interagindo.

Tamanha facilidade requer uma estrutura colossal de processadores, que consomem energia elétrica e água em proporções muito superiores às do ChatGPT, que já não são pequenas em comparação a outros serviços. A OpenAI tem feito investimentos para tentar resolver esse gargalo. Em outubro, firmou acordo com a Broadcom, empresa de semicondutores que irá produzir os primeiros chips desenvolvidos pela própria OpenAI, turbinando sua capacidade de processamento. O projeto vai exigir 10 gigawatts de energia por hora, o suficiente para abastecer 8 milhões de domicílios americanos. Um outro acordo semelhante para viabilizar seus serviços via data centers, também na casa dos 10 gigawatts, já havia sido firmado com a gigante da computação Nvidia em setembro.

Esse consumo, no entanto, não tem sido acompanhado de iniciativas para a geração de energia na mesma escala. Por isso, a OpenAI tem procurado outros países que aceitem sediar a parte “suja” da operação – isto é, seus data centers. Um dos locais mais cotados é a Argentina do presidente Javier Milei, onde recentemente foram anunciados planos para a construção dessas estruturas na Patagônia (a aposta é de que, ali, as baixas temperaturas ajudariam no resfriamento das máquinas). A empreitada tem sido criticada pelo desperdício de energia, mas por ora não há qualquer obstáculo travando o caminho das IAs. O governo americano estima que, até 2028, os data centers espalhados por seu território já serão responsáveis por consumir até 12% da energia elétrica do país.

“É bem assustador”, diz Pollyana Ferrari, ao comparar a capacidade das novas IAs audiovisuais com a das que conhecíamos até poucos meses atrás. Ela é professora de pós-graduação em tecnologias da inteligência e design digital da PUC-SP e integrante da Rede Nacional de Combate à Desinformação (RNCD), projeto que reúne universidades, agências de checagem, projetos sociais e outras entidades na luta contra as fake news. “Os detalhes, como mãos e orelhas, os cenários, os movimentos e as falas, tudo está realista num ponto em que nossos olhos podem não conseguir distinguir. Me preocupa o fato de que mesmo ferramentas de checagem já possam ser ineficazes.”

Embora não seja 100% livre de imprecisões, o Sora 2 aceita instruções para cada segundo do vídeo e permite que o usuário refine o resultado final quantas vezes quiser – na versão gratuita, porém, há um limite de trinta operações por dia. Na avaliação de Ferrari, essa mistura de facilidade, qualidade e popularidade talvez seja o marco inaugural de uma nova geração de IAs mais poderosas, mais populares e com menores preocupações éticas – como o uso indevido de obras protegidas por direito autoral, a desinformação e os abusos de privacidade. A pesquisadora não tem dúvidas de que, sendo o Brasil o terceiro país que mais usa o ChatGPT no mundo e um dos que têm maior índice de interação online, é questão de tempo até os brasileiros usarem o Sora 2 “loucamente”.

O novo aplicativo da OpenAI segue um mantra já consagrado no Vale do Silício: “É melhor pedir desculpas que permissão.” Nos primeiros dias, o Sora 2 foi disponibilizado com poucas restrições de uso, ignorando um sem-número de possíveis problemas legais, o que despertou grande interesse no público e levou à criação de um mercado paralelo de convites – em sites como o eBay, é possível comprar um deles por cerca de 5 dólares. Com exceção de crimes violentos, conteúdo sexual, armas e outras proibições descritas nas diretrizes da empresa, era permitido criar vídeos com praticamente qualquer coisa. A estratégia se alinha ao crescente desejo da companhia de lançar produtos que viralizem rapidamente, no intuito de manter aquecido um mercado que, por ora, ainda não tem um retorno financeiro sólido. Poucos dias após o lançamento do Sora 2, por exemplo, a OpenAI surgiu com outra novidade: um navegador próprio, com IA embutida, chamado ChatGPT Atlas.

Ao lançar o Sora 2, a empresa optou pelo modelo opt-out para lidar com direitos autorais. Isso significa que todo material protegido podia ser usado livremente e só seria retirado do app caso seu proprietário fizesse um requerimento formal à empresa. Não demorou para que os feeds do novo aplicativo fossem tomados por vídeos perfeitos de Bob Esponjas nazistas, Pikachus sendo assados na churrasqueira e episódios inteiros da animação South Park inventados por usuários. A única indicação de que se tratava de conteúdo falso era a pequena marca d’água do Sora 2, que é fácil de excluir dos vídeos (em poucos dias, surgiram sites especializados em fazer exatamente isso). Grande estúdios de Hollywood, sentindo-se lesados pelo uso indevido de suas imagens, se manifestaram publicamente contra a plataforma. O governo japonês solicitou à empresa que poupasse os seus célebres personagens de desenho animado, classificando as animações como um “tesouro insubstituível” de sua cultura.

A verossimilhança era ainda mais impressionante no caso dos cameos. Parte de uma cultura corporativa em que CEOs personificam suas empresas, o chefe da OpenAI, Sam Altman, não apenas fez seu próprio cameo como também o disponibilizou para quem quisesse usá-lo. Desde então, o americano de 40 anos apareceu em vídeos roubando lojas de departamento, miando em fantasias de gato, dançando como uma cantora de k-pop e praticando luta livre em roupas justas, além de inúmeras outras situações inusitadas. “Foi muito menos estranho do que pensei ver um feed cheio de memes de você mesmo”, disse Altman em seu perfil no X, alguns dias após o lançamento do app. Quando o cameo era usado em situações menos absurdas, como o CEO comendo ou conversando, ficava difícil distinguir realidade e ficção.

Nem figuras históricas foram poupadas. Nos primeiros dias do Sora 2 circularam vídeos de Martin Luther King Jr. discursando bobagens, Michael Jackson correndo da polícia e o astrofísico Stephen Hawking, em sua cadeira de rodas computadorizada, se machucando de todas as formas possíveis, como em ringues de MMA e pistas de skate. A febre fez com que Zelda Williams, filha do ator Robin Williams, morto em 2014, pedisse que parassem de lhe enviar vídeos do pai, chamando a geração por IA de “burra, um desperdício de tempo e energia”. “Vocês não estão produzindo arte, estão fazendo cachorros-quentes nojentos e ultraprocessados com a vida de seres humanos”, ela escreveu nas redes sociais, acrescentando que isso “NÃO é o que meu pai gostaria”.

A algazarra durou pouco. Menos de uma semana após o lançamento do aplicativo, a OpenAI resolveu arrochar as restrições. Foram banidos os conteúdos protegidos por direito autoral, e o filtro do que é tolerado ou não nos prompts se tornou mais sensível. Descrições como “um bebê entra no mar sozinho”, “Sam Altman ri em frente ao Studio Ghibli, no Japão”, “uma mulher descasca e come uma banana” e “Sam Altman coloca flores no túmulo de Mark Zuckerberg” passaram a ser barrados pela plataforma.

A mudança causou indignação entre os usuários que se acostumaram ao “liberou geral”. Nos fóruns dedicados ao assunto, no Reddit, não foram poucos os que xingaram a OpenAI e ameaçaram deletar o Sora 2. Um deles reclamou por não conseguir fazer um vídeo mostrando dois amigos seus, ambos adultos, terminando um relacionamento – segundo ele, o aplicativo alegava se tratar de uma “representação inaceitável de adolescentes”. Grande parte dessa comunidade online vem se dedicando desde então a encontrar meios de burlar as novas regras, o que em alguns casos é possível. Descrições genéricas, mas muito próximas de personagens reais, ou a utilização de fotos como base para os vídeos, podem ser eficazes. Segundo dados da própria empresa, as restrições não impedem que haja uma chance de 1,6% de que conteúdos sexuais sejam gerados ali, driblando todos os filtros, ainda que casos assim não tenham sido divulgados até agora. Enquanto isso, os cameos de figuras históricas, de Lincoln a Lênin, continuam autorizados (mas podem ser derrubados a pedido de seus representantes legais, como aconteceu com Luther King Jr., cuja imagem não pode mais ser gerada no aplicativo).

O lançamento do Sora 2 seguido desse recuo “é uma estratégia de marketing que já vimos antes nas plataformas de IA, algo nada inocente”, diz Ferrari. “Como grandes companhias que são, é praxe que mapeiem os potenciais problemas, a chance de perderem na Justiça ou decidirem casos com acordos judiciais, e então voltam uma ou duas casas, colocando pequenas cláusulas em suas diretrizes.” As reações funcionam como termômetro para que as empresas saibam o quão longe podem ir. E, é claro, no momento em que as restrições finalmente são impostas, o estrago já foi grande.

Um ponto preocupante, segundo a pesquisadora, é o fato de que o debate sobre direitos autorais costuma ficar restrito aos grandes estúdios e produtoras, sem contemplar o usuário comum, para quem o Sora 2 é vendido como “uma brincadeira”. Registramos nossas vozes e nossos rostos sem clareza das implicações que isso pode ter a médio e longo prazo. As empresas de IA se beneficiam do ineditismo da tecnologia e da lentidão da Justiça para se ajustar a ela. No Brasil, como na maioria dos países, ainda não há uma regulação jurídica sólida que proteja os usuários de eventuais abusos.

O risco nada novo, mas cada vez mais intransponível, é a criação de deep fakes, como são chamados os vídeos falsos ultrarrealistas cuja intenção é enganar. Ainda que o Sora 2 não permita usar o rosto ou a voz de celebridades vivas, o que inclui políticos como Trump ou Lula, não está claro como a plataforma – ou a Justiça brasileira – atuará em zonas cinzentas. Um candidato a vereador de uma cidade pequena, por exemplo, pode em tese fazer um cameo de si mesmo e gerar vídeos turbinando sua campanha sem apontar uso de IA, criando depoimentos de falsos apoiadores e imagens artificiais. Ou pode usar a tecnologia para atacar adversários, colocando-os em situações pouco lisonjeiras.

“Não é só uma ferramenta de sofisticação, mas de ampliação nas práticas de desinformação”, resume Carla Rodrigues, coordenadora de plataformas e mercados digitais da Data Privacy Brasil, organização que promove a proteção de dados por meio de cursos e pesquisas. Mas não está claro, por ora, de que maneira a legislação pode combater esse risco. “Como exatamente definir desinformação em uma área feita justamente para criar coisas que não existem?”, indaga Rodrigues. O Tribunal Superior Eleitoral (TSE) publicou, no ano passado, uma resolução que deu os primeiros passos para a regulação da IA em contexto eleitoral. Tramita, no Congresso Nacional, o projeto de lei 2338/2023, que propõe a criação de normas éticas para o uso de inteligência artificial. Ainda está em fase inicial, passando por debates numa comissão especial.

Mesmo que o projeto vá para a frente, não é exagero afirmar que viveremos, na melhor das hipóteses, um limbo no qual os deep fakes estãrao por todos os lados sem que o público tenha sido devidamente conscientizado. O que o usuário médio brasileiro pensará quando assistir, em um vídeo, a um deputado agredindo uma senhora indefesa? Ou a uma cantora injetando heroína no braço? Farsas desse tipo, que hoje já estão presentes na vida online, tendem a se tornar mais comuns e mais difíceis de identificar.

O risco não está só nos cameos de pessoas conhecidas. Vídeos de agressões a manifestantes como o the original sgt. pepper podem servir ao propósito de animar determinados grupos políticos, sobretudo quando parte do público não percebe o uso de IA (como nos comentários elogiosos ao militar de mentira e críticos ao manifestante). Nada impede a criação e a viralização de imagens falsas que mostrem, por exemplo, imigrantes cometendo crimes – um prato cheio para quem fatura politicamente com a xenofobia.

Nas páginas de apoio a Trump, não foi coincidência quando surgiram nas últimas semanas vários vídeos do tipo “manifestante se dando mal”, todos criados por inteligência artificial. O próprio presidente postou um desses no dia 18 de outubro, em que aparece despejando fezes sobre opositores durante os protestos “No Kings”, realizados naquele fim de semana em todo o país. A depender do conteúdo gerado, os internautas crédulos são muitos. Outros não o são, mas não se importam. “Isso é IA, mas é absolutamente maravilhoso”, comentou um usuário que assistiu ao vídeo do Sargento Pimenta.

Victor Calcagno

É repórter e doutorando no programa de pós-graduação em literatura, cultura e contemporaneidade da PUC-Rio, onde pesquisa literatura e cultura online

Assine nossa newsletter

E-mail inválido!

Toda sexta-feira enviaremos uma seleção de conteúdos em destaque na piauí

Cenas de um mundo inventado

O aplicativo Sora 2, que permite criar vídeos ultrarrealistas com o próprio rosto e o de outras pessoas, levou o perigo da desinformação a um novo patamar

O assassino de Charlie Kirk e o submundo digital

Corra que a pirraça vem aí

“Dosimetria” é eleita a palavra do ano pelo dicionário Oxford

Assine nossa newsletter