Imagem gerada pela COGИITIVA usando o Google Imagen 3
Esta semana o Google causou certo frisson na comunidade de IA ao liberar a nova versão do seu algoritmo de geração de imagens por IA, o Google Imagen 3, diponível para uso no ImageFX. Como o havíamos deixado de fora do nosso comparativo dos geradores de imagens feito no ano passado com o Adobe Firefly, o Canva e o Dall-e2, resolvemos pô-lo à prova.
Os resultados foram, digamos, interessantes. Apesar de gerar imagens com qualidade muito acima do que mostramos na época - acima ainda do que se pode obter hoje das mesmas ferramentas - nós não observamos o mesmo grau de entendimento dos prompts que as ferramentas testadas em 2023 apresentaram. O resultado é que o algoritmo do Google não é tão "criativo" quanto os demais, demandando que você faça uma "engenharia de prompts" em oposição aos comandos mais simples e diretos dados às ferramentas concorrentes. Talvez essa deficiência na criatividade fosse de se esperar, visto que criatividade artística nunca foi o forte do Google, a julgar pelas interfaces dos seus produtos...
Indo diretamente ao ponto, vamos ver como ele se comportou com os mesmos prompts dados às ferramentas concorrentes em 2023:
“make a photo of a cow selling ice-cream inside of an ice-cream food truck”
“a cow selling ice-cream from inside of an ice-cream food truck”
“uma vaca vendendo sorvete de dentro de um carro de sorvete em Copacabana”
“uma vaca vendendo sorvete de dentro de um caminhão de sorvete em Copacabana”
”Pôr do sol no Guaíba, tendo ao fundo o Corcovado e o Pão de Açúcar, em estilo de fotografia realista”
Resgatando os quatro critérios para julgar as imagens usados em 2023:
AP=Atendimento do prompt: numa escala de 0 a 5, o quanto do prompt dado está representado na imagem, sendo 5 a nota mais alta
OI=Originalidade da imagem gerada: numa escala de 0 a 5 ganha mais pontos a imagem que trouxer mais elementos não pedidos no prompt dado
QI=Qualidade da imagem gerada: numa escala de 0 a 5, ganha mais pontos aquela imagem onde não se percebem ruídos, falhas ou incongruências visuais (como o rosto da moça e as mãos e os pés do robô do post A Inteligência Artificial Pode Ameaçar o meu Emprego?)
AC=Atenção ao contexto: o quanto que a imagem gerada pela IA foi influenciada pelo contexto do prompt dado, também numa escala de 0 a 5.
Assim, uma imagem com "(2) AP=3 OI=4 QI=2 AC=5 NF=120" quer dizer que representa o prompt 2, teve nota 3 no quesito "Atendimento ao prompt", 4 no quesito "Originalidade de imagem" e assim por diante. A Nota Final (NF) é dada pela multiplicação das quatro notas, de modo que um zero vai dar uma nota final também zero.
Veja os resultados e tire suas próprias conclusões.
No primeiro prompt, dado em inglês, chama a atenção o fato de o algoritmo ter produzido apenas duas imagens. Ainda assim, a qualidade surpreende pelo realismo, sendo este o primeiro algoritmo que escreveu algum letreiro corretamente. Mas o resultado final não foi muito bem. Confira:
Imagens geradas com o prompt 1
Já o segundo prompt, também em inglês, produziu resultados mais interessantes e o algoritmo por si só mudou de fotorrealismo para desenho. Aqui, novamente, os letreiros são muito bem escritos e quase não há imperfeições nas imagens geradas:
Imagens geradas com o prompt 2
A grande decepção veio quando mudamos o prompt para o português: em nenhum momento o algoritmo do Google conseguiu entender e traduzir adequadamente o que pedimos. Parece que algumas palavras tiveram um peso muito grande (como Copacabana, vaca e carrinho), enquanto ignorou o contexto dado por outras (como vendendo, dentro, sorvete):
Imagens geradas com o prompt 3
Quando mudamos o contexto de "carro de sorvete" para "caminhão de sorvete", o algoritmo procedeu de forma muito similar ao prompt anterior, com resultados bem desanimadores:
Imagens geradas com o prompt 4
Porém, no último prompt, dado também em português, o algoritmo mostrou toda a sua força. Apresentou quatro opções praticamente livres de artefatos e, ainda que tenha deixado de fora alguns elementos importantes - como o Cristo no Corcovado - os resultados realmente impressionam pelo fotorealismo, a ponto de a última imagem ter obtido a maior nota do comparativo. Confira você mesmo:
Imagens geradas com o prompt 5
A nossa conclusão indica que, sempre que ele "entendeu" o prompt, no aspecto de finalização e congruência dos elementos, o Google se mostrou superior em alguns casos. Porém, como adiantamos, teve muita dificuldade em "entender" o verdadeiro objetivo do prompts mais simples, especialmente quando pedimos "uma vaca dentro de um caminhão de sorvetes vendendo sorvete". Desta forma, apesar de mais recente, a ferramenta se mostra ainda algo imatura, ao menos para o grande publico, que esperar usar estes algoritmos sem muita engenharia de prompts. E você? Manifeste sua opinião nos comentários!
Quer conhecer mais sobre a IA e o Machine Learning e aprender como aplicá-los no seu dia-a-dia?
Comments