CatoByte

Dall-e 3 prueba de usuario

Publicado el 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI, 20 de Febrero de 2024

Descargo de responsabilidad: Dall-E 3 está disponible exclusivamente en la versión paga de ChatGPT.

Hoy, me complace compartir con ustedes algunos desafíos fascinantes que he realizado recientemente utilizando DallE-3, el generador de imágenes basado en texto de OpenAI. Aquí hay un dato curioso: el nombre "Dall-E" es una mezcla de Wall-E (el adorable personaje de Pixar) y Salvador Dalí, el legendario artista.

Esta herramienta es realmente notable y simplifica enormemente el proceso de generación de imágenes. Usarla es muy fácil: simplemente proporciona una idea como entrada y el modelo crea una imagen basada en ese concepto.

Uno de mis experimentos iniciales fue pedir una imagen que representara a un caficultor con Pikachu (sí, el personaje de Pokémon). Son dos conceptos muy diferentes, pero el resultado fue simplemente espectacular. La plantación de café y el caficultor fueron representados con un realismo sorprendente, y Pikachu parecía haber salido directamente de su mundo ficticio. Hubo algunas desviaciones con respecto al personaje original, en particular la cola larga con una bola de pelo, pero debo decir que me impresionó muchísimo. La imagen irradia un encanto único, fusionando los dos conceptos a la perfección. Es tan impresionante que estoy considerando imprimirla para adornar mi pared.

Imagen creada por ChatGPT, OpenAI, 20 de Febrero de 2024

Imagen creada por ChatGPT, OpenAI, 20 de Febrero de 2024

Pero todas las tecnologías, especialmente las nuevas, tienen deficiencias que son difíciles de superar. Ahora, permítanme compartir con ustedes algunos ejemplos en los que la generación de imágenes se desvió un poco.

Cita de texto en imágenes

Decidí empezar con algo simple, así que le di a ChatGPT este comando:

¿Puedes generar una imagen de un campo y un arcoíris y dentro del arcoíris el siguiente texto "Carlos es un humano, no un duende"?

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Debo decir que quedé medio satisfecho con el resultado. El texto se citó correctamente, lo cual es una gran victoria. Sin embargo, no se combina bien con la imagen; parece impuesto y artificial, y lo más importante, está debajo del arcoíris, pero no dentro.

Así que lo intenté de nuevo, esta vez preguntando:

¿Puedes generar una imagen de un campo y un arcoíris y dentro del arcoíris el siguiente texto "Carlos es un humano, no un duende"? Asegúrate de que el texto siga la forma del arcoíris.

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Este intento tuvo resultados dispares. El texto estaba donde esperaba que estuviera, ¡eso es un triunfo! Las letras eran claras y legibles, pero el problema principal, recurrente en DALL-E, fue la adición o eliminación de letras, a pesar de que proporcioné el mismo texto. "Carlos" ganó una "R" adicional y "duende" perdió una. Parecía como si el modelo tuviera una forma peculiar de dislexia.

Es tan impresionante que estoy pensando en imprimirlo para adornar mi pared.

Generación de interfaz web

A continuación, quería que DALL-E 3 me ayudara a generar una plantilla de interfaz para un blog imaginario.

Mi primer comando fue:

¿Puedes crear una interfaz para un blog de tecnología con texto claramente mostrado?

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

El resultado inicial fue decepcionante. El texto no estaba en inglés ni era coherente; era un revoltijo de letras. La imagen general fue bastante decepcionante y estaba lejos de estar lista para cualquier proceso de producción.

Decidido, le hice a ChatGPT una solicitud más detallada, con la esperanza de resolver algunos problemas. El comando fue:

¿Puedes crear una interfaz para un blog de tecnología? Me gustaría que hubiera botones que redirigiesen a home, big data, inteligencia artificial, economía, tecnologías emergentes, sobre nosotros y contacto. También me gustaría que en la interfaz se mostrasen tres artículos que contuviesen los siguientes encabezados "¿Nos dejarán sin trabajo los robots?", "¿Cómo implementar la IA en la oficina moderna?", "La nueva era del desarrollo de software". También me gustaría que el logo del blog estuviese basado en un radar.

Imagen creada por ChatGPT, OpenAI, 20 de Febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Ahora vamos por buen camino. La interfaz se ve mucho más bonita y coherente. El radar como logotipo está presente. Sin embargo, todavía me decepcionó; hay secciones que se repiten, como el botón de inicio dos veces. Hay un título para cada artículo, lo cual es bueno, pero no solo hay letras y números agregados o eliminados aleatoriamente, a veces incluso las letras parecen estar dibujadas incorrectamente. El texto de cada artículo simplemente no tiene sentido. Parece una colección aleatoria de letras que son visualmente aceptables, pero no hay nada coherente o relacionado que se pueda leer. Es bastante irónico que Chat GPT produzca textos tan sofisticados y correctos, y DALL-E 3 parezca incapaz de comprender incluso los conceptos más básicos de gramática. Pero esa parece ser la realidad hoy.

Como último intento, agregué:

Quiero que el texto de cada artículo esté escrito en inglés. El texto debe estar relacionado con el encabezado que está encima.

Imagen creada por ChatGPT, OpenAI, 20 de Febrero de 2024

Imagen creada por ChatGPT, OpenAI, 20 de Febrero de 2024

En primer lugar, lo obvio: no ha habido ninguna mejora en la generación de textos para los artículos. Podría decir que incluso ha habido una degradación, ya que ahora los caracteres no son claramente legibles. Sin embargo, este ejemplo tiene algunos aspectos interesantes. Uno de los encabezados es perfectamente legible según la entrada dada, "¿Los robots nos dejarán sin trabajo?", pero los demás no. En algunos casos, parece que para DALL-E 3, el orden de las letras es irrelevante, o que hace elecciones raras y gramaticalmente incorrectas si el espacio no es suficiente. Algunas secciones simplemente faltan y otras se repiten muchas veces.

Para este caso de uso en particular, es una herramienta de plantillas decente para crear un prototipo rápido. Sin embargo, la intervención humana y el software especializado siguen siendo necesarios para un producto final viable. En particular, la generación de texto es un defecto importante.

Entonces pregunté:

Dibuja una hechicera sosteniendo un palo en su mano izquierda

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Luego pregunté: **"Dibuja una hechicera sosteniendo un palo en su mano izquierda".** DALL-E 3 entendió mi pedido hasta cierto punto; la hechicera sostenía un palo, pero con ambas manos. Le faltaba la inteligencia para inferir que "sostenerlo con su mano izquierda" significaba usar solo esa mano. Sin embargo, podría argumentar que mis instrucciones no eran lo suficientemente específicas.

Entonces, probé una nueva solicitud:

Dibuja un hechicero sosteniendo un palo solo con su mano izquierda

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

La imagen mostraba al hechicero sosteniéndolo con la mano derecha. Parece que DALL-E no entiende del todo la posición de las partes del cuerpo, similar al error que cometen algunos humanos al mirarse en un espejo.

Descubrí que DALL-E 3 es una herramienta divertida para crear carteles publicitarios, lo cual tiene sentido, dada la omnipresencia de la publicidad en nuestra sociedad. Entonces, pensé en cómo se vería un cartel de un perfume francés en Colombia según ChatGPT y pregunté:

¿Puedes crear un cartel publicitario de perfumes franceses para el mercado colombiano?

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Me encantó el resultado; parecía tan típico, me atrevería a decir incluso estereotipado, de Colombia, con las flores, la arquitectura colonial y las montañas. Me recordó a algunos pueblos rurales del país. Y el frasco de perfume se ve tan chic y elegante, que recuerda a la sofisticación francesa. Una mezcla sutil. Sin embargo, el único problema es que el texto estaba mal. No tan mal como en otros casos; Por alguna razón, en mi cabeza, incluso sonaba un poco a portugués o a alguna otra lengua romance, con los acentos sobre la "A" en "Fráncesesa" que debería ser "Francesa", de todos modos, o "Excéconalles" que debería ser "excepcionales". El único problema era el texto: no completamente erróneo, pero un poco fuera de lugar, casi sonaba como portugués. La colocación del texto era correcta; simplemente no estaba en español. Pero era casi comprensible. Los textos correctos deberían ser:

Next up:

¿Puedes dibujarme un diagrama de clases UML para una tienda?

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Aunque es bastante bonita, esta imagen tiene algunos problemas. El problema más obvio es que no se adhiere al estándar UML. Existe una convención específica para representar una clase o una interfaz, como usar flechas para indicar relaciones entre clases, como herencia o dependencia. Aunque la imagen es visualmente atractiva, no se ajusta a estos estándares. Además, sin tener en cuenta las etiquetas repetidas y las palabras mal escritas, es imposible imaginar un software real basado en esta imagen.

¿Puedes dibujarme un diagrama de relación de entidades de base de datos para un restaurante?

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Una vez más, nos encontramos con el mismo problema: una imagen visualmente impactante estropeada por un texto incoherente que no cumple con estándares específicos y no ofrece una representación lo suficientemente clara de un esquema de base de datos.

Cuando refinamos la solicitud, logramos un resultado ligeramente mejorado

¿Puedes dibujarme un diagrama de relación de entidades de base de datos para un restaurante que respete el estándar de Peter Chen?

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Si bien este resultado se acerca más a cumplir con las expectativas, aún tiene varios problemas. Para empezar, hay errores gramaticales, como "Empleado" en lugar de "Empleado". La tabla de entidades, específicamente la tabla del restaurante, se repite de manera redundante. Además, faltan las relaciones entre entidades, generalmente representadas dentro de un diamante. Las relaciones en dichos diagramas son similares a los verbos que conectan entidades, por ejemplo, "el empleado sirve mesas". Lamentablemente, este aspecto crucial está completamente ausente en la imagen, lo que la hace absurda".

Por último, quería probar DALL-E 3 con dos conceptos que usaran la misma palabra. ¿Elegiría atasco de tráfico o mermelada de fresa? Los resultados fueron súper tiernos, sorprendentes y divertidos. Pregunté:

Por favor, dibuja una fresa en un atasco de tráfico

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Por favor, dibuja una fresa en un atasco de tráfico

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Por favor, dibuja una fresa en un atasco de tráfico

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Imagen creada por ChatGPT, OpenAI. 20 de febrero de 2024

Quería terminar con esta nota porque fue la parte más divertida de la prueba. Creo que una de las mayores fortalezas de DALL-E es la mezcla creativa de conceptos. Es fantástico para crear prototipos de nuevas ideas y expandir la creatividad, todo en segundos. Una de sus debilidades más importantes es la generación de imágenes que contienen texto coherente. Este problema disminuye enormemente su utilidad para crear interfaces web o imágenes publicitarias donde el mensaje es crucial. Como mínimo, requiere un cierto posprocesamiento; no es una solución lista para su uso inmediato. Otra debilidad notable es la generación precisa de diagramas que se adhieran a estándares específicos. DALL-E no está programado para seguir estas estrictas pautas, ni comprende completamente los sistemas que estos estándares representan. Mi reflexión final: Esta herramienta, a pesar de sus imperfecciones, acelera significativamente el proceso de generación de imágenes. Democratiza, agiliza y reduce los costos de creación de imágenes, lo que beneficia especialmente a las pequeñas empresas y a los usuarios individuales que carecen de acceso a un equipo de marketing o profesionales del diseño.