
Olá amigos da IA! Hoje quero compartilhar com você um artigo de Andrew Ng, publicado na newsletter The Batch:
O vídeo gerado [por IA] torna-se (mais) real
O novo gerador de vídeo da OpenAI eleva o nível de detalhe e realismo nos vídeos gerados – mas a empresa divulgou poucos detalhes sobre como construiu o sistema.
O que há de novo: a OpenAI introduziu o Sora, um modelo de texto para vídeo que pode produzir vídeos de alta definição extraordinariamente convincentes com até um minuto de duração. Você pode ver exemplos aqui.
O que sabemos: Sora é um modelo de difusão latente que aprendeu a transformar ruído em vídeos usando um codificador-decodificador e um transformador. O sistema foi treinado em vídeos de até 1.920x1.080 pixels e duração de até um minuto.
Seguindo na esteira do DALL·E 3, a OpenAI treinou um modelo de legendagem de vídeo para aprimorar as legendas dos vídeos no conjunto de dados, adicionando detalhes descritivos.
Munido dos detalhes dos quadros de um vídeo, o codificador aprendeu a incorporar esses detalhes e comprimí-los ainda mais ao longo da dimensão de tempo, produzindo tokens. Com os tokens, o decodificador aprendeu a reconstruir o vídeo.
Com estes tokens, que foram adulterados pela adição de ruído em conjunto com um prompt aprimorado, o transformador aprendeu a gerar os tokens sem ruído.
Na inferência, uma entrada aprimorada de transformador separada solicita que o prompt seja mais descritivo. Dado o prompt aprimorado e os tokens com ruído, o transformador do Sora removeu o ruído, produzindo novos tokens sem ruído, que o decodificador usou para produzir um vídeo.
O que não sabemos: a OpenAI está compartilhando a tecnologia com pesquisadores externos encarregados de avaliar sua segurança, informou o The New York Times . Entretanto, a empresa não publicou resultados quantitativos nem comparações com trabalhos anteriores. Também faltam descrições detalhadas de arquiteturas de modelos e métodos de treinamento (alguns dos resultados sugerem que o Sora foi treinado não apenas para remover ruído de tokens, mas também para prever tokens futuros e gerar novos tokens a partir de outros tokens). Nenhuma informação está disponível sobre a(s) fonte(s) do conjunto de dados ou como ele pode ser gerado.
Resultados qualitativos: O resultado da demonstração do Sora é impressionante o suficiente para gerar discussões sobre até que ponto Sora “compreende” a física. Uma cena fotorrealista em que “uma mulher estilosa caminha por uma rua de Tóquio repleta de néon quente e brilhante” mostra um bairro comercial lotado e repleto de pedestres críveis. Os óculos escuros da mulher refletem os letreiros de néon, assim como a rua molhada. Na metade de seu minuto de duração, a perspectiva corta – espontaneamente e presumivelmente não editada – para um close-up consistente e detalhado de seu rosto. Em outro clipe, dois navios piratas de brinquedo balançam e balançam em um mar espumante de café, cercados pela borda de uma xícara. Os dois navios mantêm a sua distinção e independência, as suas bandeiras tremulam na mesma direção e o líquido agita-se de forma fantástica, mas realista. No entanto, como reconhece a OpenAI, os resultados apresentados não estão isentos de falhas. Por exemplo, a borda da taça de batalha dos piratas, depois que o movimento da câmera a tira do enquadramento, emerge das ondas (aliás, as demos do Sora são ainda mais divertidas com trilhas sonoras geradas pelo Eleven Labs).
Por que é importante: embora tenhamos visto transformadores para geração de vídeo, modelos de difusão para geração de vídeo e transformadores de difusão para imagens, esta é uma implementação inicial de transformadores de difusão para geração de vídeo (junto com um artigo recente). Sora mostra que os transformadores de difusão funcionam bem para vídeo.
Estamos pensando: Sora aprendeu um modelo de mundo? Aprender a prever o estado futuro de um ambiente, talvez dadas certas ações dentro desse ambiente, não é o mesmo que aprender a representar esse ambiente em pixels - assim como a capacidade de prever que uma piada fará alguém sorrir é diferente da capacidade de desenhar uma foto desse sorriso. Dada a capacidade de Sora de extrapolar cenas para o futuro, parece ter alguma compreensão do mundo. O seu modelo mundial também é claramente falho – por exemplo, irá sintetizar estruturas tridimensionais inconsistentes – mas é um passo promissor em direção a sistemas de IA que compreendem o mundo 3D através de vídeo.
Veja o artigo original no The Batch
Comments