top of page

Vídeos Gerados por IA Atingem Novo Patamar de Qualidade




Olá amigos da IA! Hoje quero compartilhar com você um artigo de Andrew Ng, publicado na newsletter The Batch:


O vídeo gerado [por IA] torna-se (mais) real

O novo gerador de vídeo da OpenAI eleva o nível de detalhe e realismo nos vídeos gerados – mas a empresa divulgou poucos detalhes sobre como construiu o sistema.


O que há de novo: a OpenAI introduziu o Sora, um modelo de texto para vídeo que pode produzir vídeos de alta definição extraordinariamente convincentes com até um minuto de duração. Você pode ver exemplos aqui.


O que sabemos: Sora é um modelo de difusão latente que aprendeu a transformar ruído em vídeos usando um codificador-decodificador e um transformador. O sistema foi treinado em vídeos de até 1.920x1.080 pixels e duração de até um minuto.

  • Seguindo na esteira do DALL·E 3, a OpenAI treinou um modelo de legendagem de vídeo para aprimorar as legendas dos vídeos no conjunto de dados, adicionando detalhes descritivos.

  • Munido dos detalhes dos quadros de um vídeo, o codificador aprendeu a incorporar esses detalhes e comprimí-los ainda mais ao longo da dimensão de tempo, produzindo tokens. Com os tokens, o decodificador aprendeu a reconstruir o vídeo.

  • Com estes tokens, que foram adulterados pela adição de ruído em conjunto com um prompt aprimorado, o transformador aprendeu a gerar os tokens sem ruído.

  • Na inferência, uma entrada aprimorada de transformador separada solicita que o prompt seja mais descritivo. Dado o prompt aprimorado e os tokens com ruído, o transformador do Sora removeu o ruído, produzindo novos tokens sem ruído, que o decodificador usou para produzir um vídeo.

O que não sabemos: a OpenAI está compartilhando a tecnologia com pesquisadores externos encarregados de avaliar sua segurança, informou o The New York Times . Entretanto, a empresa não publicou resultados quantitativos nem comparações com trabalhos anteriores. Também faltam descrições detalhadas de arquiteturas de modelos e métodos de treinamento (alguns dos resultados sugerem que o Sora foi treinado não apenas para remover ruído de tokens, mas também para prever tokens futuros e gerar novos tokens a partir de outros tokens). Nenhuma informação está disponível sobre a(s) fonte(s) do conjunto de dados ou como ele pode ser gerado.


Resultados qualitativos: O resultado da demonstração do Sora é impressionante o suficiente para gerar discussões sobre até que ponto Sora “compreende” a física. Uma cena fotorrealista em que “uma mulher estilosa caminha por uma rua de Tóquio repleta de néon quente e brilhante” mostra um bairro comercial lotado e repleto de pedestres críveis. Os óculos escuros da mulher refletem os letreiros de néon, assim como a rua molhada. Na metade de seu minuto de duração, a perspectiva corta – espontaneamente e presumivelmente não editada – para um close-up consistente e detalhado de seu rosto. Em outro clipe, dois navios piratas de brinquedo balançam e balançam em um mar espumante de café, cercados pela borda de uma xícara. Os dois navios mantêm a sua distinção e independência, as suas bandeiras tremulam na mesma direção e o líquido agita-se de forma fantástica, mas realista. No entanto, como reconhece a OpenAI, os resultados apresentados não estão isentos de falhas. Por exemplo, a borda da taça de batalha dos piratas, depois que o movimento da câmera a tira do enquadramento, emerge das ondas (aliás, as demos do Sora são ainda mais divertidas com trilhas sonoras geradas pelo Eleven Labs).


Por que é importante: embora tenhamos visto transformadores para geração de vídeo, modelos de difusão para geração de vídeo e transformadores de difusão para imagens, esta é uma implementação inicial de transformadores de difusão para geração de vídeo (junto com um artigo recente). Sora mostra que os transformadores de difusão funcionam bem para vídeo.


Estamos pensando: Sora aprendeu um modelo de mundo? Aprender a prever o estado futuro de um ambiente, talvez dadas certas ações dentro desse ambiente, não é o mesmo que aprender a representar esse ambiente em pixels - assim como a capacidade de prever que uma piada fará alguém sorrir é diferente da capacidade de desenhar uma foto desse sorriso. Dada a capacidade de Sora de extrapolar cenas para o futuro, parece ter alguma compreensão do mundo. O seu modelo mundial também é claramente falho – por exemplo, irá sintetizar estruturas tridimensionais inconsistentes – mas é um passo promissor em direção a sistemas de IA que compreendem o mundo 3D através de vídeo.


Veja o artigo original no The Batch

4 visualizações0 comentário

Posts recentes

Ver tudo

Comments

Rated 0 out of 5 stars.
No ratings yet

Add a rating
bottom of page