Lo que hay que saber sobre DALL-E Mini, el creador de imágenes de IA

22 de septiembre de 2022|Rachael Roth

La IA de DALL-E crea imágenes realistas a partir de cualquier indicación, y su potencial podría modificar Internet para bien o para mal.

En los últimos meses, es posible que haya visto publicaciones en línea de DALL-E Mini, se haya dado cuenta o no. Tendrían una cuadrícula de nueve imágenes acompañadas de un pie de foto, como “el Demogorgon de Stranger Things con una pelota de baloncesto". Mediante la inteligencia artificial (IA), esta herramienta genera imágenes basadas en indicaciones del usuario y es de código abierto, lo que significa que cualquiera puede usarla y modificarla. DALL-E Mini fue creada por el desarrollador Boris Dayma; esta es la propia versión de DALL-E creada por Dayma, un producto desarrollado en 2021 por OpenAI, empresa de investigación de IA.

Embed provider twitter not yet supported.

El modelo de Dayma es impresionante: la imagen del Demogorgon es un gran ejemplo de la precisión con la que la herramienta puede dar vida a nuestra imaginación. Por otro lado, algunos ejemplos muestran las limitaciones del programa. A primera vista, las imágenes pueden parecer reconocibles, pero de cerca, al igual que una pintura de Monet, las formas y los colores son más vagos que los conocidos. Los resultados más inquietantes están siendo archivados por la cuenta de Twitter Weird DALL-E Mini Generations (que ya tiene más de un millón de seguidores), como esta representación de pesadilla de Jack Black en una inauguración presidencial.

Las imágenes de DALL-E Mini son de menor calidad que las de DALL-E de Open AI. Además, DALL-E Mini se creó con menos recursos de hardware y requiere menos recursos de GPU (unidad de procesamiento de gráficos), razón por la que cualquiera en Internet puede usarla si tiene unos minutos. Debido a sus limitaciones, las imágenes aún no son lo suficientemente realistas como para ser interpretadas como reales.

Este mes, OpenAI ha lanzado su producto para el consumidor, DALL-E 2, y está dando acceso gradualmente al millón de personas que están en su lista de espera. En este modelo, al igual que en DALL-E Mini, las imágenes se generan a partir del lenguaje natural. Los usuarios pueden introducir prácticamente cualquier frase y generar una imagen realista de alta resolución. DALL-E 2 está entrenado con un programa llamado CLIP, que recopila los emparejamientos de pies de foto e imágenes de todo Internet. Además de las imágenes originales y las ilustraciones que crea, también puede editar las imágenes existentes y sacar variaciones de una misma imagen. Las posibilidades solo tienen como límite nuestra imaginación y paciencia. Vea algunos ejemplos en el sitio de OpenAI.

Si le interesa saber exactamente cómo funciona, este vídeo de Assembly AI lo explica muy bien.

El descargo de responsabilidad de DALL-E

Como DALL-E 2 y DALL-E Mini se entrenan con imágenes y pies de foto de todo Internet, en algunos resultados es necesaria una advertencia. Bajo el generador de DALL-E Mini, Dayma incluye que las imágenes pueden "... reforzar o exacerbar los sesgos sociales" y "... puesto que el modelo fue entrenado con datos de Internet sin filtrar, puede generar imágenes que contengan estereotipos contra grupos minoritarios".

Por ejemplo, tal como documentó Futurism, el término "gastroenterólogo" generó imágenes de médicos hombres blancos, mientras que el término "enfermero" generó imágenes de mujeres. Según Wired, algunas indicaciones también generaron representaciones hipersexualizadas de mujeres e imágenes que refuerzan los estereotipos raciales.

Al igual que el descargo de responsabilidad de DALL-E Mini, el sitio web de OpenAI dice de DALL-E:

"Reconocemos que el trabajo con modelos generativos puede tener un impacto amplio y significativo en la sociedad. En el futuro, nuestro plan es analizar cómo los modelos como DALL-E se relacionan con cuestiones sociales como el impacto económico en ciertos procesos de trabajo y profesiones, el posible sesgo en los resultados del modelo y los desafíos éticos a largo plazo que implica esta tecnología".

OpenAI tiene una política de contenido que prohíbe compartir imágenes explícitas u ofensivas, y vigila que los usuarios no infrinjan estas políticas. Recientemente, OpenAI implantó una técnica a nivel de sistema en DALL-E 2 con el fin de que la generación de imágenes refleje mejor la diversidad de la población.

Pero ¿qué otras implicaciones tiene este generador de texto a imagen de alto rendimiento y accesible para el usuario?

Aspectos éticos de la IA

OpenAI también pide a los usuarios en su Política de contenido que, al compartir imágenes generadas por DALL-E, indiquen que la imagen o el gráfico han sido creados mediante IA. Aunque las imágenes suelen ser más artísticas que fotorrealistas, existe la posibilidad de crear imágenes falsas y difundir información errónea a través de ellas, sobre todo porque la tecnología de conversión de texto en imagen avanza rápidamente. Por supuesto, también existen programas como Photoshop, pero con DALL-E no hay programa, ni curva de aprendizaje ni se necesita mucho tiempo para generar una imagen convincente.

Además, nos preguntamos si quienes ejecutan las amenazas pueden replicar esta tecnología y utilizarla de forma distinta a su propósito original.

Mitigación de los riesgos de la desinformación

La tecnología de deepfake o ultrafalsificación se utiliza actualmente en las campañas de desinformación en Internet, aunque tiene sus limitaciones. TheConversation.com anima a los usuarios de Internet a que busquen señales reveladoras de un deepfake: movimientos labiales desarticulados, rasgos faciales demasiado lisos, sombras mal situadas y cabello de aspecto falso. El sitio web también anima a los usuarios a prestar atención al contexto de un vídeo y a pensar de forma crítica en lo que están viendo, especialmente si parece improbable. También hay una serie de tecnologías de detección de deepfakes en elaboración.

El mismo tipo de prueba decisiva puede aplicarse a las imágenes generadas mediante IA. Si una foto circula por Twitter en lugar de partir de una fuente de noticias verificada, y presenta una hipótesis improbable, merece ser analizada más a fondo. OpenAI también está trabajando para limitar el posible mal uso. Su política establece:

"Para minimizar el riesgo de que DALL-E se utilice indebidamente para crear contenido engañoso, rechazamos las subidas de imágenes que contengan caras realistas y los intentos de recrear la imagen de figuras públicas, incluidas celebridades y figuras políticas prominentes. También utilizamos técnicas avanzadas para evitar la generación fotorrealista de rostros de personas reales".

El documento que describe cómo se creó DALL-E 2 está a disposición pública, lo que significa que DALL-E podría replicarse sin los mecanismos de seguridad que OpenAI ha implementado para limitar la desinformación y las imágenes dañinas.

Por ahora, es una herramienta fascinante que muestra el potencial de la tecnología de IA y algo para maravillarse. Pero recuerde que no debe creerse todo lo que ve en Internet.

¿Desea protegerse mejor en línea? Empiece por lo básico.

Conozca los 6 fundamentos de la ciberseguridad que todo el mundo debería tener presentes.

Regístrese para recibir noticias y actualizaciones acerca de Dashlane

AI artificial intelligence DALL-E DALL-E IA inteligencia artificial

Rachael Roth

Rachael Roth is a content creator with over a decade of experience in print and digital media. She is a longtime contributing writer for Dashlane's blog and is an Editor and Copywriter for NYC & Company, New York City’s CVB and marketing organization.