El Desafío: Consistencia Facial con Midjourney

El Desafío Consistencia Facial con Midjourney

AI Product Manager

Nota del Autor: Consulta el Glosario de IA y lee el artículo anterior

Nota del Autor 2: Este artículo fue creado antes de que salga Referencia de Personaje.

En nuestra exploración continua de Midjourney, nos adentramos aún más en la creación de personajes, enfocándonos esta vez en un desafío clave: la consistencia facial. A partir de las pruebas anteriores, seleccionamos un rostro final para poner a prueba la flexibilidad y alcance de Midjourney, con el objetivo de obtener imágenes consistentes pero dinámicas y diferentes entre sí. Nuestra expectativa era que Midjourney nos entregara cuatro imágenes que, aunque variadas en ambiente y vestuario, mantuvieran una coherencia facial que permitiera contar una misma historia.

Explorando la Consistencia de Imágenes con Midjourney

Para lograr nuestro objetivo, nos sumergimos en los diferentes métodos que Midjourney ofrece para mantener la consistencia en imágenes de un mismo personaje. Utilizamos técnicas avanzadas como la asignación de pesos e imágenes de referencia para guiar a la IA en la generación de resultados precisos.

La Importancia de los Pesos e Imágenes de Referencia

Asignar pesos en Midjourney nos permitió dar prioridad a ciertos atributos faciales, asegurando que los rasgos distintivos del personaje se mantuvieran constantes en todas las imágenes generadas. Al proporcionar imágenes de referencia, pudimos afinar aún más el proceso, indicando a la IA cómo debía interpretar y reproducir los detalles faciales y estilísticos del personaje.

Expectativas y Realidades: Consistencia en Diversos Entornos

Nuestra meta era obtener cuatro imágenes de la misma persona en diferentes ambientes y vestuarios. Queríamos que cada imagen contara una parte de una historia más amplia, con coherencia visual pero suficiente variación para mantener el interés. Al iniciar el proceso, nos encontramos con varios desafíos.

La IA demostró ser competente en generar imágenes con el mismo rostro, pero mantener la consistencia en detalles más finos, como la expresión facial y el estilo del cabello, requirió múltiples iteraciones y ajustes. La asignación de pesos ayudó a enfocar la IA en los rasgos faciales clave, mientras que las imágenes de referencia proporcionaron un punto de partida visual claro para cada nueva generación.

El Proceso Creativo

Elegimos las imagenes de referencia. Una para el personaje y otra para el ambiente.

Pusimos a Midjourney a tres pruebas:

Usando un prompt de la imagen del personaje como referencia
Usando un prompt de la imagen del personaje con pesos diferentes
Usando dos prompts de imagen del personaje como referencia, uno para el personaje y otro para el entorno.

Prueba 1: Usando un prompt de la Imagen como referencia

Fórmula: características de la fotografía + características del personaje + características del vestuario + características del ambiente

En esta prueba describimos a nuestro personaje en el entorno que queríamos y agregamos algunos detalles nuevos al prompt para lograr el resultado del entorno deseado.

Prompt Escrito para Midjourney:

“Full body shot low angle photograph of a 20 year old realistic Latina. 
She has tanned skin, distinctively curly brunette hair, and warm brown eyes, highlighted by her big eyelashes and prominent eyebrows. She is wearing an elegant office outfit. She is posing outside a conference room. --ar 9:16 --style raw --v 6.0 ”

Prompt de imagen para Midjourney Resultados de Midjourney

ghisco httpss.mj.runQBORDrgmCHU full body shot low angle photo 5a21cbc1 57a5 4852 851f 7b99f7f65ac7

Usar prompts de imagen resultó ineficaz porque los resultados de Midjourney no lograron transponer con éxito la transición del personaje a un entorno diferente. Este resultado ocurre porque Midjourney da prioridad al prompt de imagen en la composición. En consecuencia, incluso si diriges a Midjourney para colocar al personaje en otro entorno, la prominencia del prompt de imagen, especialmente si es un primer plano del personaje, domina toda la imagen, relegando el entorno a un papel secundario.

Prueba 2: Usando un prompt de la Imagen del personaje con pesos diferentes

Para tener una mejor comprensión de cómo funcionan los pesos, aquí hay una breve explicación. Esencialmente, asignar un peso más alto (3) a un prompt de imagen significa que tendrá un reflejo más significativo en el resultado final. Por el contrario, un peso más bajo (0) significa que la imagen tendrá menos influencia en la imagen final.

Para estas próximas pruebas, ajustamos los pesos de imagen del prompt de imagen y experimentamos con varios ajustes de peso, específicamente 0, 2 y 3. Dado que usamos el peso predeterminado de 1 en nuestra prueba anterior, anticipamos obtener resultados similares a los previamente mostrados; por lo tanto, optamos por no usar 1 como peso. Los resultados se pueden observar de la siguiente manera: a la izquierda, tenemos nuestro prompt de imagen, y a la derecha, los resultados producidos por Midjourney.

Prompt de imagen para Midjourney

Resultados de Midjourney

ghisco httpss.mj.runQBORDrgmCHU full body shot low angle photo 5da47908 7445 4566 a0e6 52cd1f1405da

ghisco httpss.mj.runQBORDrgmCHU full body shot low angle photo e8f54e2b 982c 4c42 b492 c4c3134ea482

Peso de imagen (0) Peso de imagen (2) Peso de imagen (3)

Las pruebas de pesos nos muestra la influencia significativa que tienen estos en el resultado final al trabajar con un personaje como referencia. El peso de 3 nos entrega un personaje similar al de nuestra referencia, sin embargo, los resultados son claramente de un personaje completamente nuevo. Por lo que no es ideal para nuestro objetivo utilizar este método como única forma de réplica.

Prueba 3: Dos imágenes como referencia, ambiente y personaje

Para esta prueba, elegimos una oficina como imagen de referencia para ubicar a nuestro personaje. Les asignamos el mismo peso a ambas imágenes para que Midjourney les dé la misma importancia.

Estas pruebas usando como referencia una imagen del entorno y de nuestro personaje no lograron la consistencia deseada. Aunque Midjourney es útil para crear referencias visuales, como personajes y entornos, tiene dificultades para mantener la coherencia entre imágenes.

Análisis al usar imagenes como prompts

A lo largo de esta fase del proyecto, aprendimos valiosas lecciones sobre las capacidades y limitaciones de Midjourney en cuanto a la consistencia de personajes. Aunque la herramienta mostró una notable habilidad para reproducir el mismo rostro en diferentes contextos, descubrimos que la precisión en los detalles dependía en gran medida de la calidad y especificidad de nuestras indicaciones.

Uno de los descubrimientos más importantes fue la necesidad de ser extremadamente detallados en nuestras descripciones y referencias. La IA respondió mejor cuando se le proporcionaron instrucciones claras y específicas, lo que redujo la cantidad de ajustes necesarios en las iteraciones posteriores.

Selecciona únicamente un personaje para jugar con las herramientas. Las iteraciones con varios personajes consume tiempo y créditos de Midjourney, y no sirve para crear consistencia.
Combinar un prompt con imagen de referencia más el uso de un texto descriptivo te acerca a tener una consistencia pero no es suficiente.
Ajustar los pesos de las imágenes puede resultar útil, sin embargo, mantener el peso en 1 equilibra la variabilidad y preserva la estética.
Usar dos imágenes cómo referencia funciona mejor cuando comparten estéticas similares; usar imágenes muy diferentes crea un nuevo estilo. Para mantener la consistencia del personaje es crucial usar imágenes similares para integrarlo en nuevos entornos. Sin embargo, esto no asegura una consistencia de personaje, pero puede llevarte a tener nuevas ideas.
Las referencias con imagen son un método efectivo para experimentar con nuevas formas de mejorar la apariencia de tus imágenes mientras se mantiene una estética general.
Una prompt de texto es crucial para lograr resultados óptimos, ya que la forma en la cual fue entrenado Midjourney fue únicamente con prompts de texto. Por lo tanto, siempre usar un prompt de texto al usar cualquier herramienta extra que ofrece Midjourney es lo ideal.
Para los prompts con imágenes, limitarse a un máximo de dos imágenes produce los mejores resultados para cualquier flujo de trabajo.
Para la mayor parte de creación de imágenes con personajes, ajustar los pesos no es esencial.

Nuestro desafío con la consistencia facial en Midjourney ha sido tanto revelador como educativo. La herramienta mostró un gran potencial para mantener la coherencia visual de un personaje en diversos entornos, aunque no sin la necesidad de ajustes cuidadosos y referencias precisas.

El proceso nos permitió apreciar las capacidades avanzadas de Midjourney, pero también nos recordó la importancia del toque humano en la supervisión y ajuste de las creaciones de IA. Seguiremos explorando y optimizando nuestro enfoque, compartiendo nuestros hallazgos y continuando nuestra misión de descubrir hasta dónde puede llegar la creatividad asistida por IA.

Sigue acompañándonos en este viaje mientras profundizamos aún más en el fascinante mundo de la inteligencia artificial y su impacto en el diseño y la ilustración. ¡El futuro creativo está aquí, y estamos emocionados de ser parte de él!