Para o post de hoje escolhi testar a qualidade dos geradores de imagens mais usados no mercado. Busquei prompts criativos para testar estas ferramentas de IA generativas de modo a que tivessem "algum grau de liberdade criativa", assim mesmo, entre aspas, já que a IA não cria nada.
Aí bolei o meu script e coloquei o Adobe Firefly, o Canva e o Dall-e2 para trabalhar. Cada um me gerou quatro opções para cada prompt dado, e eu fiquei com os quatro primeiros gerados, ou seja, não ignorei o resultado nem pedi para gerar novamente.
Elegi quatro critérios para julgar as imagens:
AP=Atendimento do prompt: numa escala de 0 a 5, o quanto do prompt dado está representado na imagem, sendo 5 a nota mais alta
OI=Originalidade da imagem gerada: numa escala de 0 a 5 ganha mais pontos a imagem que trouxer mais elementos não pedidos no prompt dado
QI=Qualidade da imagem gerada: numa escala de 0 a 5, ganha mais pontos aquela imagem onde não se percebem ruídos, falhas ou incongruências visuais (como o rosto da moça e as mãoes e os pés do robô do meu post de alguns dias atrás - ver A Inteligência Artificial Pode Ameaçar o meu Emprego?)
AC=Atenção ao contexto: o quanto que a imagem gerada pela IA foi influenciada pelo contexto do prompt dado, também numa escala de 0 a 5.
Assim, uma imagem com "(2) AP=3 OI=4 QI=2 AC=5 NF=120" quer dizer que representa o prompt 2, teve nota 3 no quesito "Atendimento ao prompt", 4 no quesito "Originalidade de imagem" e assim por diante. A Nota Final (NF) é dada pela multiplicação das quatro notas, de modo que um zero vai dar uma nota final também zero.
O método adotado para obter as imagens foi bastante simples: munido de cinco prompts, acessei cada uma das três ferramentas e pedi para que me gerassem as imagens, fornecendo um prompt a cada vez, na mesma ordem, para todas elas. Para me permitir testar a contextualização absorvida pelo algoritmo, os dois primeiros prompts foram fornecidos em inglês, em seguida o mesmo conteúdo foi pedido mas dando o prompt em português mas acresentando uma localidade (Copacabana), e por último, foi dado um quinto prompt só em português. Estes foram os prompts dados, na ordem:
“make a photo of a cow selling ice-cream inside of an ice-cream food truck”
“a cow selling ice-cream from inside of an ice-cream food truck”
“uma vaca vendendo sorvete de dentro de um carro de sorvete em Copacabana”
“uma vaca vendendo sorvete de dentro de um caminhão de sorvete em Copacabana”
”Pôr do sol no Guaíba, tendo ao fundo o Corcovado e o Pão de Açúcar, em estilo de fotografia realista”
O último prompt tinha por objetivo unir o pôr do sol mais bonito do Brasil com uma das suas imagens mais icônicas e ver no que dava.
A seguir você confere as imagens geradas, a pontuação e o número do prompt conforme a lista acima. Divirta-se! Não deixe de comentar!
O Adobe Firefly usa um engine proprietário da Adobe, o Sensei, e acabou sendo a IA que performou pior no cômputo geral, o que foi uma surpresa dada a tradição da empresa com softwares para manipulação de imagem, com sucessos como o Photoshop e o Illustrator. Confira:
O prompt 1 sucitou a geração de imagens com muitos artefatos (ruído) e incongruências, como problemas de perspectiva e de foco. Também desempenhou mau no quesito "Atenção ao prompt"
O prompt 2, por não ter a palavra "foto", gerou imagens mais infantis e típicas de ilustrações, mas também apresentou problemas de perspectiva e incongruências.
O prompt 3, já em português, foi bem claro ao incluir Copacabana no contexto. Porém, a interpretação de "carro" estranhamente sucitou um carrinho de sorvetes, com resultados muito ruins.
No prompt 4 podemos ver a sutileza que a mudança de uma palavra trouxe para o contexto. Apesar de algumas imagens terem qualidade razoável, o contexto Copacabana não foi muito bem interpretado. Podemos ver algumas incongruências, como três sóis na figura 2 e vários problemas com perspectiva.
Considero o prompt 5 como talvez o mais difícil para as IAs entenderem e gerarem algo que não fosse muito estranho, afinal estamos falando de um fenômeno metereológico ocorrendo num cenário que mescla duas cidades muito diferentes, mas acabou sendo o melhor desempenho do Firefly neste teste.
O Canva é um caso à parte porque além do Stable Diffusion usado no Magic Media, também usa o Dall-e da OpenAI e o Imagen do Google para gerar imagens, mas não dá para saber qual foi usado em cada uma. Em todo caso, vale a pena conferir pois, na comparação entre os três softwares, ficou com o segundo lugar com alguns resultados muito bons.
Assim como o Adobe Firefly, o Canva também teve alguma dificuldade em interpretar o prompt 1. A imagem 4, por exemplo, nem vaca tem (vai ver é ela quem tá dirigindo o caminhãozinho ;). Alguns problemas de contexto, como rodas que não combinam também ficaram evidentes.
Novamente, ao retirar a palavra "foto" do prompt 2 as imagens geradas tiveram um tom mais infantil. Não seria problema, já que não havia nenhuma restrição explícita, mas a quantidade de artefatos, problemas de foco, perspectiva e congruência (o que é aquilo nas costas da mulher na imagem 3?) não conferiram um resultado muito favorável para o Canva.
No prompt 3, ao mudar o idioma para o português, o Canva se perdeu completamente e conseguiu emplacar zero em todas as quatro imagens. Ao contrário da minha expectativa de que Copacabana evocasse o calçadão e a praia, o Canva optou por imagens do Bairro e da Avenida N. Sa. de Copacabana. Bem, errado ele não tá...
Para sua interpretação do prompt 4 o Canva manteve o visual do bairro no lugar da praia, mas infelizmente com péssimos resultados.
A surpresa ficou para o prompt 5, no qual o Canva levou o segundo lugar. Algumas das imagens mesclaram muito bem a geografia de Porto Alegre com a do Rio de Janeiro, produzindo bons resultados. Foi o único engine que mesclou o Pão de Açúcar e o Corcovado em quase todas as imagens, produzindo, em alguns casos uma combinação interessante (o Cristo no topo do Pão de Açúcar, por exemplo).
Dado o furor da mídia sobre a OpenAI, a expectativa em cima do Dall-e 2 foi muito grande, e ele não fez (muito) feio: levou dois primeiros lugares, um no teste da vaquinha e outro no teste do pôr do sol combinado. Vale a pena conferir:
Já de largada o Dall-e 2 mostrou sua superioridade e emplacou a melhor imagem da vaquinha vendendo sorvete, interpretando adequadamente o prompt 1 e colocando as coisas em contexto adequado. A opção por uma vista perpendicular da lateral do trailer facilitou, pois reduziu muito o risco de gerar artefatos, incongruências e problemas com foco e perspectiva.
Para o prompt 2 o Dall-e gerou algumas imagens mais suaves, mantendo a ausência de artefatos e, não fosse pelo tamanho da vaca nas duas primeiras imagens, não haveriam problemas com a perspectiva.
No primeiro prompt em português a adaptação para o contexto também trouxe o carrinho de sorvete. Algumas incongruências apareceram, mas o calçadão tá lá. Dos cinco prompts, o prompt 3 foi onde o Dall-e desempenhou pior. A idéia de colocar uma vaca dentro de um carrinho de picolé definitivamente não é muito boa, mas o resultado geral mostra que há uma preocupação com escala no algoritmo.
O prompt 4, ao trocar "carro" por "caminhão" trouxe algumas interpretações inusitadas, como a Kombi e o tiozinho na trazeira, junto com a vaca, que o engine espertamente colocou para fora do vidro. Mas como podemos notar, nem tudo o que foi pedido foi colocado adequadamente.
O prompt 5 gerou belas imagens, com o engine carregando no calor das cores e dando destaque para o pôr do sol (acreditem: o por do sol no Gaíba tem esta cor) e mesclando bem os elementos da paisagem.
Conclusão
O Dall-e 2 merece o primeiro lugar, emplacando duas imagens com nota máxima. Os demais engines são promissores e, como são gratuitos (no Dall-e 2 você paga um mínimo de $15 por 115 "créditos", equivalentes a mais ou menos 460 imagens), valem a pena. Não é surpresa que tenha se saído melhor que os demais, visto que conta com o poder de processamento de uma gigante como a Microsoft à sua disposição.
Todos eles guardam contexto, então você pode ir variando o seu prompt para que o engine gere variações até chegar no resultado desejado (ou muito perto disso).
Esta é uma tecnologia que ainda está engatinhando. Com certeza vai se aperfeiçoar muito ainda, e o fato de a gente poder digitar a idéia que a gente tem na cabeça para o computador gerar uma imagem é algo muito, muito legal. Estas ferramentas, que usam modelos de difusão, que operam pegando uma imagem aleatória e então vão gradualmente refinando até atingirem um resultado satisfatório, que atinja a descrição (prompt) fornecida, são treinadas em vastos conjuntos de dados de textos e imagens. É a combinação disto que resulta em imagens realísticas, dando a aparência de incorporar contornos criativos e imaginativos.
Mas uma coisa é certa: saber pedir é muito importante. Então preste muita atenção ao redigir um prompt. É provável que você tenha que fazer isto algumas vezes, mudando as palavras e trazendo mais contexto para o seu prompt antes de obter o resultado que deseja.
Confira detalhes as duas melhores imagens geradas:
댓글