A OpenAI, responsável por plataformas como o ChatGPT e o DALL-E, apresentou nesta quinta-feira (15) uma nova inteligência artificial generativa. Trata-se do Sora, um serviço capaz de criar vídeos a partir de comandos de texto.
O modelo de linguagem permite a criação de vídeos nos mais diferentes estilos. Você pode pedir que o sistema gere clipes fotorrealistas, com estética retrô, no formato de animação ou até simulando algum gênero específico do cinema, por exemplo.
Nos comandos, vale a mesma estratégia de outras IAs: quanto mais específico e detalhado o prompt de comando, melhor. No caso do Sora, é possível especificar personagens, cenário, enquadramentos, estética, objetos em cena e até uma sequência de ações.
Prompt: “A movie trailer featuring the adventures of the 30 year old space man wearing a red wool knitted motorcycle helmet, blue sky, salt desert, cinematic style, shot on 35mm film, vivid colors.” pic.twitter.com/0JzpwPUGPB
— OpenAI (@OpenAI) February 15, 2024
A própria OpenAI divulgou uma série de clipes feitos utilizando o Sora, inclusive revelando qual foi o prompt utilizado para gerar cada um deles. No site da companhia, é possível ver vários exemplos de vídeos nos mais variados estilos, todos feitos artificialmente pela nova plataforma.
Como funciona a IA Sora?
O grande diferencial do Sora em relação a outros modelos de linguagem é a capacidade dele de entender “como certas coisas existem no mundo físico”. Ou seja, a IA sabe a posição, o contexto e o comportamento de elementos na realidade e é capaz de replicar tudo isso nos clipes.
O modelo inclui ainda “uma compreensão profunda da linguagem” para interpretar comandos e até criar pessoas expressando emoções. O vídeo abaixo, por exemplo, teve o seguinte comando:
Prompt: “A stylish woman walks down a Tokyo street filled with warm glowing neon and animated city signage. she wears a black leather jacket, a long red dress, and black boots, and carries a black purse. she wears sunglasses and red lipstick. she walks confidently and casually.… pic.twitter.com/cjIdgYFaWq
— OpenAI (@OpenAI) February 15, 2024
“Uma mulher estilosa caminha por uma rua de Tóquio repleta de néon quente e brilhante e sinalização animada da cidade. Ela usa uma jaqueta de couro preta, um vestido longo vermelho, botas pretas e carrega uma bolsa preta. Ela usa óculos escuros e batom vermelho. Ela caminha com confiança e casualmente. A rua é úmida e reflexiva, criando um efeito espelhado das luzes coloridas. Muitos pedestres andam por lá”.
Segundo a OpenAI, o Sora também pode ser usado para “expandir” clipes, ampliando a duração deles com conteúdos inéditos feitos por IA que se baseiam no material original.
https://t.co/rmk9zI0oqO pic.twitter.com/WanFKOzdIw
— Sam Altman (@sama) February 15, 2024
Por enquanto, só é possível criar vídeos de no máximo 60 segundos usando o serviço, sem qualquer tipo de áudio vinculado automaticamente. Além disso, os clipes trazem alguns defeitos, como deformações em membros e falhas na interação com determinados objetos.
Quando poderei usar o Sora?
Por enquanto, a OpenAI não confirmou como e se vai liberar a IA para todos os usuários. Os clipes divulgados até o momento são de uma fase experimental da plataforma, que agora passará por uma avaliação de segurança e privacidade em busca de “áreas críticas por danos ou riscos”.
Além disso, a companhia disponibilizou o Sora para “um certo número de artistas visuais, designers e cineastas” para receber contribuições em como melhorar o modelo antes de uma disponibilização comercial.