Para equipos de diseño, producto o marketing, la pregunta importante no es solo si una imagen de IA “queda bonita”. En un anuncio, una ficha de producto, un mockup de interfaz o una escena con varios elementos, lo crítico es que el modelo ponga cada objeto donde se le pide: a la izquierda, delante, centrado, detrás de otro, sin mover el logotipo ni cambiar la relación entre piezas.
Con los datos disponibles, esa mejora de GPT Image 2 frente a GPT Image 1.5 no se puede cuantificar de forma fiable. Las fuentes oficiales de OpenAI consultadas no aportan una comparación lado a lado sobre composición compleja, precisión espacial o colocación multiobjeto entre ambos modelos.[13][
14][
31][
33]
Qué sí se puede comprobar
OpenAI documenta GPT Image 1.5 como un modelo de generación de imágenes y afirma que ofrece mejor seguimiento de instrucciones y mayor adherencia a los prompts.[14] También mantiene una página para GPT Image 1, al que describe como su modelo anterior de generación de imágenes, capaz de aceptar entradas de texto e imagen y producir salidas de imagen.[
36]
Otro punto relevante: la documentación de generación de imágenes de OpenAI separa dos flujos de trabajo. Generations consiste en crear imágenes desde cero a partir de un prompt de texto; Edits consiste en modificar imágenes ya existentes.[24] Esta distinción importa porque no es lo mismo pedir “crea una escena con cinco objetos colocados en posiciones concretas” que pedir “mueve este objeto dentro de una imagen existente” o “añade un elemento sin alterar el resto”.
En los extractos disponibles del changelog de la API, la página Models y la página All models no aparece una tabla oficial que compare GPT Image 2 y GPT Image 1.5 en precisión espacial, composición compleja o colocación de objetos.[13][
31][
33] Por tanto, la conclusión prudente es: GPT Image 1.5 tiene documentación oficial y una descripción verificable; una mejora cuantificada de GPT Image 2 en object placement, no.[
14]
El estado público de GPT Image 2 tampoco está claro
La dificultad no es que nadie hable de GPT Image 2. El problema es que las fuentes públicas no cuentan la misma historia.
Un recopilatorio de Mew Design adopta una posición cauta: GPT Image 2 parece estar en pruebas, pero no estaría oficialmente disponible como modelo nombrado de OpenAI.[1] getimg.ai también sostiene que OpenAI no ha anunciado GPT Image 2 y que la línea pública se detiene en gpt-image-1.5.[
5] En cambio, otro artículo de terceros afirma que OpenAI lanzó ChatGPT Images 2.0 / gpt-image-2 el 21 de abril de 2026 y le atribuye una puntuación Arena de 1512.[
2]
También hay reseñas de terceros que dicen haber probado GPT Image 2 con prompts estandarizados, incluyendo fotografía de producto, mockups de UI, señalética multilingüe, retratos y contenido de marca.[4] Pero ese tipo de relato, al menos en los extractos disponibles, no ofrece una tasa reproducible de éxito en relaciones izquierda/derecha, delante/detrás, oclusiones o colocación multiobjeto, ni una tabla completa contra GPT Image 1.5.[
4]
Dicho de forma sencilla: hay señales y afirmaciones de terceros sobre GPT Image 2, pero no un dato público, oficial y reproducible que responda “mejora un X% en precisión de colocación”.[1][
2][
4][
5]
Por qué 1512 frente a 1241 no sirve como precisión de colocación
Una fuente de terceros lista GPT Image 2 con una puntuación de 1512 y GPT Image 1.5 con 1241, una diferencia de 271 puntos.[6] Ese dato puede citarse, con cautela, como una puntuación general atribuida por esa página. Lo que no permite es convertirlo en “GPT Image 2 coloca objetos un 22% mejor” o “mejora 271 puntos en precisión espacial”.
Hay tres motivos:
- La fuente no indica que esa puntuación mida específicamente composición compleja, relaciones espaciales, oclusión o colocación de múltiples objetos.[
6]
- Una puntuación agregada no es lo mismo que una tasa de acierto. Sin muestra de prompts, método de evaluación y clasificación de errores, no puede traducirse a porcentaje de precisión.[
6]
- Las fuentes oficiales de OpenAI consultadas no proporcionan un benchmark equivalente, con la misma batería de pruebas, para GPT Image 2 frente a GPT Image 1.5 en spatial accuracy u object placement.[
13][
14][
31][
33]
La forma rigurosa de escribirlo sería: “una fuente de terceros atribuye a GPT Image 2 una puntuación general superior a GPT Image 1.5”. No sería correcto presentarlo como una prueba oficial de mejora en colocación de objetos.[6][
13][
14]
Cómo tendría que ser un benchmark útil
Para responder de verdad si GPT Image 2 coloca mejor los elementos que GPT Image 1.5, haría falta una prueba más estricta que mirar unas cuantas imágenes bonitas. Como mínimo, debería incluir:
- La misma batería de prompts para ambos modelos. Deben quedar claros el nombre del modelo, versión o snapshot, parámetros usados y fecha de prueba.
- Tareas diseñadas para medir relaciones espaciales. Por ejemplo: izquierda/derecha, arriba/abajo, delante/detrás, contacto entre objetos, oclusión, centrado, distancia al borde y relación entre varios elementos.
- Una rúbrica de aprobado/suspenso. No basta con valorar estética; hay que comprobar identidad de objetos, número de objetos, posición relativa, escala, texto solicitado y conservación de elementos de marca.
- Evaluación ciega o con varios revisores. Así se reduce el riesgo de elegir solo los mejores resultados o puntuar sabiendo qué modelo generó cada imagen.
- Separar generación y edición. OpenAI distingue Generations y Edits en su documentación, así que conviene medir esos flujos por separado.[
24]
Sin ese diseño, una captura en redes sociales, una reseña anecdótica o una puntuación global no bastan para responder cuánto mejora la colocación.
Recomendación para equipos de producto, diseño y marketing
Hasta que exista un benchmark oficial o una evaluación independiente reproducible, conviene tratar cualquier promesa de mejora cuantificada como hipótesis, no como hecho.
Un enfoque más seguro sería:
- Usar GPT Image 1.5 como baseline verificable, porque cuenta con página oficial de OpenAI y se describe con mejor seguimiento de instrucciones y adherencia a prompts.[
14]
- Crear un set fijo de prompts que refleje los casos de riesgo del equipo: productos con etiquetas, interfaces densas, logotipos, texto en imagen, varios objetos y relaciones espaciales precisas.
- Puntuar primero el cumplimiento de la composición y después la estética.
- Registrar por separado los resultados de generación desde texto y los de edición de imagen, ya que OpenAI los trata como flujos distintos.[
24]
- Evitar prometer a clientes o stakeholders una mejora porcentual concreta si no se ha medido en el propio caso de uso.
Veredicto
La conclusión más sólida es limitada pero clara: GPT Image 1.5 está documentado por OpenAI como modelo de generación de imágenes con mejor adherencia a prompts, y GPT Image 1 aparece como modelo anterior.[14][
36] En cambio, no hay datos públicos suficientes para decir cuánto mejora GPT Image 2 frente a GPT Image 1.5 en composición compleja o colocación de objetos.
Las afirmaciones de terceros sobre GPT Image 2 no son uniformes, y una puntuación general como 1512 frente a 1241 no puede transformarse automáticamente en precisión espacial o tasa de acierto en object placement.[1][
2][
5][
6]




