El CEO de OpenAI, Sam Altman, ha anunciado la primera gran actualización en las capacidades de generación de imágenes de ChatGPT en más de un año. Esta nueva funcionalidad permite a ChatGPT aprovechar el modelo GPT-4o para crear y modificar imágenes y fotografías de manera nativa, marcando un avance significativo en la plataforma de chatbot impulsada por inteligencia artificial.
Hasta ahora, el modelo GPT-4o había sido utilizado exclusivamente para generar y editar texto. Sin embargo, Altman ha destacado que la generación de imágenes nativa con GPT-4o está disponible desde hoy en ChatGPT y Sora, el producto de generación de video de OpenAI, para los suscriptores del plan Pro de $200 al mes. La compañía ha informado que esta función se implementará pronto para los usuarios Plus y gratuitos de ChatGPT, así como para los desarrolladores que utilizan su servicio de API.
Factores diferenciativos de GPT-4o
Una de las características distintivas de GPT-4o es que "piensa" un poco más que el modelo de generación de imágenes que reemplaza, DALL-E 3, lo que permite crear imágenes más precisas y detalladas. Además, GPT-4o tiene la capacidad de editar imágenes existentes, incluyendo aquellas que contienen personas, permitiendo transformaciones y la modificación de detalles como objetos en primer plano y fondo.
Para potenciar esta nueva función de imagen, OpenAI ha indicado que entrenó a GPT-4o utilizando "datos disponibles públicamente", así como datos propietarios derivados de sus asociaciones con empresas como Shutterstock. En un contexto donde muchos proveedores de IA generativa consideran los datos de entrenamiento como una ventaja competitiva, OpenAI se mantiene cautelosa al respecto, ya que los detalles de estos datos también pueden ser fuente de litigios relacionados con la propiedad intelectual.
"Tenemos políticas en marcha que nos impiden generar imágenes que imiten directamente el trabajo de cualquier artista vivo"
Brad Lightcap, COO de OpenAI, afirmó en una declaración al Wall Street Journal que la empresa respeta los derechos de los artistas en cuanto a la generación de imágenes. "Tenemos políticas en marcha que nos impiden generar imágenes que imiten directamente el trabajo de cualquier artista vivo", aseguró.
Además, OpenAI ofrece un formulario de exclusión que permite a los creadores solicitar la eliminación de sus obras de los conjuntos de datos de entrenamiento. La compañía también respeta las solicitudes para evitar que sus bots de recopilación web recojan datos de entrenamiento, incluidas imágenes, de sitios web.
La actualización de las capacidades de generación de imágenes de ChatGPT llega justo después de que Google presentara su salida nativa de imágenes experimental para Gemini 2.0 Flash, uno de sus modelos más destacados. Esta poderosa función se volvió viral en las redes sociales, aunque no necesariamente por las mejores razones, ya que el componente de imágenes de Gemini 2.0 Flash reveló tener pocas restricciones, lo que permitió a los usuarios eliminar marcas de agua y crear imágenes que representaban personajes protegidos por derechos de autor.