OpenAI, dona do ChatGPT, lança modelo que cria vídeos realistas com inteligência artificial a partir de textos

Sora consegue criar vídeos de até 60 segundos a partir de breve descrições, segundo a empresa. Por ora, somente artistas visuais receberam acesso à ferramenta, para dizer como ela pode ser útil para suas criações. Conheça o Sora, gerador de vídeos realistas a partir de inteligência artificial, feito pela dona do ChatGPT
A OpenAI, criadora do robô ChatGPT, revelou nesta quinta-feira (15) um modelo de inteligência artificial que cria vídeos realistas a partir de texto curtos. Batizado de Sora, ele foi liberado para análises de especialistas e ainda não está disponível ao público.
“O Sora pode criar vídeos de até 60 segundos com cenas altamente detalhadas, movimentos de câmera complexos e vários personagens com emoções vibrantes”, explica a OpenAI.
“O modelo entende não apenas o que o usuário pediu no prompt [comando], mas também como essas coisas existem no mundo físico.”
Vídeo criado com a inteligência artificial Sora mostra mamutes caminhando no gelo
Divulgação/OpenAI
Demonstrações de criações do Sora incluem tanto animações quanto vídeos com estilo realista (veja exemplos). Um deles mostra o que seria um casal andando em Tóquio – o vídeo não foi gravado por humanos, e sim gerado por inteligência artificial, segundo a OpenAI.
A empresa disse que vai adotar várias medidas de segurança antes de disponibilizar o Sora em seus produtos. Isso inclui o trabalho com especialistas em áreas como desinformação e conteúdo de ódio e preconceito.
Além disso, um grupo de artistas visuais, formado por profissionais como designers e cineastas, recebeu acesso à ferramenta para dar suas contribuições sobre o que pode ser feito para torná-la útil para suas criações.
“O Sora serve de base para modelos que podem compreender e simular o mundo real, capacidade que acreditamos que será um marco importante para alcançar a AGI [Inteligência Artificial Geral]”, afirma a OpenAI.
Como funciona o Sora
Vídeo criado com a inteligência artificial Sora mostra animação de personagem brincando com vela
Divulgação/OpenAI
O Sora usa uma técnica chamada “difusão”, que cria imagens a partir de pontos aleatórios. No começo do processo, o vídeo tem uma aparência de ruído estático, o efeito de TVs antigas que estão sem sinal. E, aos poucos, o visual é transformado em algo que pode ser reconhecido por um ser humano.
A técnica é parecida com a de robôs que conseguem criar fotos a partir de descrições dos usuários. Um deles é o DALL-E, que também foi criado pela OpenAI e serviu de base para o desenvolvimento do Sora.
“[O Sora] usa a técnica de recaptação do (robô) DALL-E 3, que envolve a geração de legendas altamente descritivas para os dados de treinamento visual. Como resultado, o modelo [Sora] é capaz de seguir com mais fidelidade as instruções de texto do usuário no vídeo gerado”, diz a OpenAI.
Nem tudo é perfeito
A empresa afirma que, além de criar vídeos do zero, seu novo modelo de inteligência artificial é capaz de criar continuações de vídeos existentes e gerar vídeos a partir de imagens estáticas. E admite que ele também tem “fraquezas”.
Segundo a OpenAI, o Sora pode ter dificuldade para reproduzir a física de uma cena complexa e pode não entender lógicas de causa e efeito. “Por exemplo, uma pessoa pode dar uma mordida em um biscoito, mas depois o biscoito não ter marca de mordida”, explica.
“O modelo também pode confundir detalhes espaciais de um ‘prompt’, por exemplo, misturando direita e esquerda, e pode ter dificuldades com descrições precisas de eventos que ocorrem ao longo do tempo, como seguir uma trajetória específica de câmera.”
Medidas de segurança
A OpenAI promete tomar várias medidas de segurança antes de disponibilizar o Sora em seus produtos. Ela diz que, na fase de testes, a ferramenta geradora de vídeos está sendo desafiada por especialistas em áreas como desinformação, conteúdo de ódio e vieses.
“Também estamos criando recursos que ajudem a detectar conteúdo enganoso”, afirma a empresa, que promete um detector de vídeos criados pelo Sora.
Segundo a OpenAI, o texto apresentador para encomendar um vídeo será verificado para identificar comandos que levem à violação da política de uso da companhia, como aqueles que requeiram violência extrema, conteúdo sexual, semelhança com celebridades etc.
“Não temos como prever todos os usos benéficos que as pessoas terão com a nossa tecnologia, nem todas as maneiras com as quais as pessoas abusarão dele”, diz a OpenAI. “É por isso que acreditamos que o aprendizado a partir do uso no mundo real é um componente crítico para criação e lançamento de sistemas de inteligência artificial cada vez mais seguros ao longo do tempo.”
Veja exemplos de vídeos criados pelo Sora
Initial plugin text
Initial plugin text
Initial plugin text
Como funcionam os robôs que criam fotos
Como funcionam os robôs que criam imagens novas em segundos

FONTE

Deixe um comentário Cancelar resposta