OpenAI lanza generación de imágenes de GPT-4o

INTELIGENCIA ARTIFICIAL

OpenAI lanza generación de imágenes en ChatGPT de forma nativa con GPT-4o



Dirección copiada

Sam Altman anunció una actualización importante de ChatGPT en la materia como “una de las novedades más divertidas que hemos lanzado”.

Publicado el 25 mar 2025

Francisco Iglesias

Director editorial de Netmedia



Prafulla Dhariwal (izq), Gabriel Goh (centro) y Sam Altman de OpenAI muestran una demo de la generación de imágenes 4o.
Prafulla Dhariwal (izq), Gabriel Goh (centro) y Sam Altman de OpenAI muestran una demo de la generación de imágenes 4o. Crédito: YouTube OpenAI

OpenAI anunció la primera actualización importante de las capacidades de generación de imágenes de ChatGPT en más de un año. El chatbot impulsado con inteligencia artificial (AI, por sus siglas en inglés) ahora aprovecha el modelo GPT-4o de OpenAI para crear y modificar imágenes o fotos de forma nativa.

GPT-4o ha sido la base de ChatGPT durante mucho tiempo, pero solo podía generar y editar texto. Ahora puede modificar imágenes existentes, incluyendo fotos con personas, transformándolas o “redibujando” detalles como objetos de primer plano y de fondo.

Durante una transmisión en vivo el martes, el CEO de OpenAI, Sam Altman, anunció la actualización como “una de las novedades más divertidas que hemos lanzado”.

La nueva función reemplazará la herramienta de OpenAI para la generación de imágenes, DALL-E, cuya versión más reciente, la tercera, lanzada en septiembre de 2023, estaba desarrollada de forma nativa en ChatGPT lo que permitía generar prompts para obtener los dibujos.

“La generación de imágenes ha sido, en gran medida, una novedad. Se ha podido crear arte genial con ella y se han hecho cosas increíbles, pero no ha tenido la capacidad de ser realmente útil en una amplia variedad de maneras”, señaló Altman, quien calificó la actualización de GPT-4o como “un gran avance”.

OpenAI sigue los pasos de Google

La función mejorada de generación de imágenes de ChatGPT sigue los pasos del lanzamiento de imágenes nativa experimental de Google para Gemini 2.0 Flash, uno de los modelos estrella de la compañía.

Disponible en Google AI Studio, la herramienta de acceso gratuito permite restaurar imágenes antiguas con mejoras en resolución y color; modificar objetos, permitiendo cambiar su posición o tamaño sin afectar el fondo; añadir elementos faltantes, como gafas, accesorios o detalles ausentes en la imagen original, y hacer ajustes avanzados de iluminación y composición, sin afectar otras partes de la imagen.

Sin embargo, la función se viralizó en redes sociales, aunque no por las mejores razones. El componente de imagen de Gemini 2.0 Flash resultó tener pocas restricciones, lo que permitía eliminar marcas de agua y crear imágenes con caracteres protegidos por derechos de autor.

Disponibilidad de la generación de imágenes de GPT-4o

Altman afirmó que la generación nativa de imágenes con GPT-4o ya está disponible en ChatGPT y Sora, el producto de generación de video con AI de OpenAI.

En una publicación de blog, la empresa dijo que la función se lanzó a partir de hoy como generador de imágenes predeterminado en ChatGPT para los usuarios Plus, Pro, Team y Free. Próximamente, añadió, estará disponible para Enterprise y Edu.

Para quienes aprecian DALL·E, aún pueden acceder a él a través de una cuenta DALL·E GPT dedicada.

OpenAI apuntó que gracias a que la generación de imágenes ahora es nativa de GPT‑4o, se pueden refinarlas mediante conversaciones naturales. GPT‑4o puede aprovechar las imágenes y el texto en el contexto del chat, garantizando así la coherencia en todo momento, detalló.

4o no puede generar imágenes copiadas

Para impulsar la nueva función de imagen, OpenAI declaró al diario Wall Street Journal que entrenó a GPT-4o con datos públicos, así como con datos exclusivos de sus colaboraciones con empresas como Shutterstock.

Muchos proveedores de inteligencia artificial generativa (GenAI) consideran los datos de entrenamiento como una ventaja competitiva, por lo que los mantienen en secreto, junto con cualquier información relacionada.

Sin embargo, los detalles de los datos de entrenamiento también son una fuente potencial de demandas por propiedad intelectual, lo que desincentiva a las empresas a revelar información relevante.

“Respetamos los derechos de los artistas en cuanto a cómo procesamos los resultados, y contamos con políticas que nos impiden generar imágenes que imiten directamente la obra de cualquier artista vivo”, declaró Brad Lightcap, director de operaciones de OpenAI, al WSJ.

Artículos relacionados

Artículo 1 de 5