Claude Opus 4.7 Vision interesa menos por una promesa genérica de “ver mejor” y más por un cambio técnico concreto: Anthropic afirma que Opus 4.7 es el primer modelo Claude con soporte de imagen de alta resolución, y que el límite pasa de 1.568 px / 1,15 MP a 2.576 px / 3,75 MP.[4]
En términos prácticos, ese salto permite entregar al modelo más detalle visual antes de que empiece a razonar. De 1,15 MP a 3,75 MP hay aproximadamente 3,26 veces más megapíxeles, una diferencia relevante cuando la imagen contiene letra pequeña, tablas, etiquetas de interfaz o una composición muy cargada.[4]
Lo que cambia en Vision con Opus 4.7
| Cambio | Qué anunció Anthropic | Por qué importa |
|---|---|---|
| Más resolución de entrada | Opus 4.7 estrena en Claude el soporte de imagen de alta resolución; el límite sube a 2.576 px / 3,75 MP desde 1.568 px / 1,15 MP.[ | La imagen puede conservar más detalle útil, sobre todo en texto pequeño, interfaces complejas y documentos densos.[ |
| Enfoque en capturas, artifacts y documentos | Anthropic dice que esta mejora es especialmente importante para computer use y para entender capturas de pantalla, artifacts y documentos.[ | No es una mejora pensada solo para fotografías: apunta directamente a pantallas, archivos visuales y material de trabajo.[ |
| Percepción de bajo nivel | La compañía menciona avances en tareas como señalar, medir, contar y otras similares.[ | Sirve cuando la pregunta depende de una posición, una cantidad o un detalle pequeño dentro de la imagen.[ |
| Localización en imagen | Opus 4.7 mejora en image localization, incluidas cajas delimitadoras y detección de objetos en imágenes naturales.[ | Puede ayudar a ubicar botones, campos, gráficos, zonas de documento u objetos concretos.[ |
| Coordenadas 1:1 | Las coordenadas que devuelve el modelo se corresponden 1:1 con los píxeles reales de la imagen.[ | Reduce el trabajo de recalcular escalas al usar esas coordenadas sobre la imagen original, algo clave en automatización.[ |
Qué significa realmente pasar a 3,75 MP
La mejora central es que Opus 4.7 puede trabajar con imágenes de entrada más grandes. Si antes una captura o una página escaneada tenía que reducirse mucho para entrar en el límite del modelo, parte de la información visual podía perderse en el reescalado: caracteres finos, números pequeños, iconos o líneas de una tabla. Con el nuevo límite de 2.576 px / 3,75 MP, una misma imagen puede llegar al modelo con más información preservada.[4]
Conviene leerlo con cuidado: más resolución no convierte una imagen borrosa, mal comprimida o mal escaneada en una fuente perfecta. La ventaja se nota más cuando el material original ya es nítido, pero estaba demasiado lleno de información para el límite anterior.[4]
Por qué las capturas de pantalla salen especialmente beneficiadas
Una captura de pantalla rara vez es una imagen “limpia”. Suele combinar menús, botones, iconos, campos de formulario, mensajes de error, paneles laterales, tablas y texto pequeño. Anthropic señala explícitamente que el soporte de alta resolución de Opus 4.7 es importante para computer use y para entender screenshots.[4]
Para automatización, el detalle más práctico es la correspondencia 1:1 entre coordenadas y píxeles reales.[4] En flujos donde hay que hacer clic, arrastrar, comprobar una posición o marcar una zona en una captura, esto evita parte del trabajo de traducir la respuesta del modelo a la imagen original después de un redimensionado.[
4]
Documentos, diapositivas y artifacts: el valor está en el diseño denso
Documentos y presentaciones no son solo texto. Pueden incluir tablas, gráficos, leyendas pequeñas, etiquetas de ejes, encabezados, pies de página y varias columnas. Anthropic incluye documents y artifacts entre los tipos de contenido que se benefician de esta mejora de Vision en Opus 4.7.[4]
La página de producto de Claude Opus 4.7 también sitúa el modelo en un contexto de mejor visión y de salidas profesionales como interfaces, slides y docs.[1] Por eso, si un flujo de trabajo depende de leer diapositivas como imagen, revisar diseños de documentos o interpretar capturas de material visual con mucha información, el cambio merece una prueba con datos reales.[
1][
4]
Localización: no basta con leer, también hay que señalar bien
En muchos casos, la pregunta no es solo “qué dice aquí”, sino “dónde está exactamente”. Anthropic menciona mejoras de localización en imagen, como cajas delimitadoras, detección de objetos en imágenes naturales y tareas de percepción de bajo nivel como señalar, medir y contar.[4]
En una interfaz, esto puede significar distinguir no solo que existe un botón, sino en qué parte de la pantalla está. En un documento, puede ser la diferencia entre reconocer un gráfico y delimitar la región concreta del gráfico o de una etiqueta. Esa clase de tareas encaja con la dirección de la mejora descrita por Anthropic para Opus 4.7.[4]
Lo que no conviene prometer: “OCR X% mejor”
Los materiales oficiales usados aquí no publican un benchmark específico que diga cuánto mejora el OCR de capturas de pantalla o documentos en porcentaje.[1][
4] La formulación más precisa es esta: Vision en Opus 4.7 sube el techo de resolución de entrada, mejora tareas de percepción y localización, y Anthropic lo presenta como especialmente útil para capturas, artifacts, documentos y computer use.[
4]
Dicho de otra forma: hay motivos para esperar mejores resultados cuando el cuello de botella era la resolución. Pero no hay una cifra pública suficientemente específica para afirmar que el OCR mejore siempre en una proporción fija para cualquier tipo de captura o documento.[1][
4]
Cómo probarlo en un flujo real
Si estás evaluando Opus 4.7 para un producto, una herramienta interna o un proceso de revisión, lo más útil es ensayarlo por familias de casos, no con una sola imagen de muestra:
- Imágenes con mucho detalle: compara la misma captura o página en resolución original y en una versión reducida para ver qué cambia cuando el modelo recibe más píxeles.[
4]
- Interfaces de usuario: pídele que identifique botones, campos, mensajes de error y zonas relacionadas dentro de una captura.
- Documentos y diapositivas: comprueba lectura de tablas, notas pequeñas, gráficos y diseños en varias columnas, porque documents y artifacts están entre los casos mencionados por Anthropic.[
4]
- Automatización: solicita coordenadas o cajas delimitadoras y verifica si coinciden con los píxeles de la imagen original bajo la correspondencia 1:1 anunciada.[
4]
- OCR: mide aciertos y errores en un conjunto representativo propio, ya que Anthropic no da una cifra oficial separada para OCR de capturas o documentos en estas fuentes.[
1][
4]
Conclusión
La mejora de Vision en Claude Opus 4.7 es más interesante cuando la imagen está llena de detalles pequeños o cuando la aplicación necesita ubicar elementos con precisión. Los tres puntos a recordar son: límite de entrada de 2.576 px / 3,75 MP, mejoras de percepción y localización, y coordenadas alineadas 1:1 con los píxeles reales.[4]
Para capturas de pantalla, documentos, artifacts y flujos de computer use, es una actualización clara. Si el objetivo es OCR o automatización a escala de producto, la recomendación prudente es hacer benchmark con tus propios datos antes de extrapolar una mejora fija a partir del nuevo límite de resolución.[1][
4]




