Claude Opus 4.7의 비전 업그레이드에서 핵심은 ‘이미지를 더 잘 본다’는 막연한 표현이 아니라, 입력 이미지 해상도 한도가 구체적으로 커졌다는 점이다. Anthropic은 Opus 4.7을 고해상도 이미지 지원을 갖춘 첫 Claude 모델이라고 설명하며, 한도가 1,568px / 1.15MP에서 2,576px / 3.75MP로 올라갔다고 밝혔다.[4]
수치로 보면 1.15MP에서 3.75MP는 약 3.26배다. 스크린샷, 문서 캡처, 슬라이드, 대시보드처럼 작은 글씨와 촘촘한 UI 요소가 많은 이미지에서는 모델이 추론 전에 볼 수 있는 픽셀 자체가 늘어난다는 뜻이다.[4]
Opus 4.7 Vision에서 달라진 핵심
| 변화 | Anthropic 발표 내용 | 실제로 기대할 수 있는 의미 |
|---|---|---|
| 더 높은 입력 이미지 해상도 | Opus 4.7은 고해상도 이미지 지원을 갖춘 첫 Claude 모델이며, 한도가 1,568px / 1.15MP에서 2,576px / 3.75MP로 증가했다.[ | 작은 텍스트, 복잡한 인터페이스, 정보가 많은 문서 이미지의 시각 정보가 더 많이 보존될 수 있다.[ |
| 스크린샷·문서 중심의 개선 | Anthropic은 이 해상도 업그레이드가 computer use와 스크린샷, 아티팩트, 문서 이해에 특히 중요하다고 설명했다.[ | 자연 사진 전반의 개선만이 아니라, 화면 캡처와 업무용 시각 자료가 직접적인 대상이다.[ |
| 기초 시각 인식 개선 | Anthropic은 가리키기, 측정, 세기 같은 low-level perception 작업 개선을 언급했다.[ | 이미지 속 위치, 개수, 작은 요소를 묻는 작업에서 유용할 수 있다.[ |
| 이미지 내 위치 파악 개선 | 바운딩 박스와 자연 이미지 객체 탐지 등 image localization 개선이 제시됐다.[ | 버튼, 입력창, 그래프 영역, 특정 객체를 찾아 영역으로 표시하는 작업에 맞는다.[ |
| 1:1 픽셀 좌표 | 모델이 반환하는 좌표가 실제 이미지 픽셀과 1:1로 대응한다.[ | 자동화에서 좌표를 원본 이미지에 다시 매핑할 때 별도 스케일 계산 부담이 줄어든다.[ |
3.75MP가 중요한 이유
문제는 단순히 ‘큰 이미지를 올릴 수 있다’가 아니다. 예전 한도에 맞추기 위해 스크린샷이나 문서 이미지를 크게 줄여야 했다면, 작은 글씨·아이콘·표의 선·차트 라벨 같은 정보가 모델에 도달하기 전에 사라질 수 있었다. 2,576px / 3.75MP 한도는 같은 이미지를 한 번에 분석할 때 더 많은 시각 정보를 남길 수 있게 한다.[4]
다만 이것을 만능 OCR 개선으로 읽어서는 안 된다. 원본이 흐릿하거나 심하게 압축됐거나 스캔 품질이 낮다면, 해상도 한도가 올라가도 모든 글자를 정확히 읽는다고 보장할 수는 없다. 가장 큰 효과를 기대할 수 있는 경우는 원본은 선명하지만 화면 안에 정보가 너무 빽빽해 기존 해상도 한도에서 손실이 컸던 이미지다.[4]
스크린샷 분석에서는 무엇이 달라지나
스크린샷에는 작은 요소가 한 화면에 몰려 있다. 메뉴, 버튼, 아이콘, 입력창, 오류 메시지, 표, 사이드 패널, 차트 라벨이 서로 가까이 붙어 있는 경우가 많다. Anthropic이 Opus 4.7의 고해상도 이미지 지원을 computer use와 스크린샷 이해에 중요하다고 따로 언급한 이유도 이 지점과 맞닿아 있다.[4]
특히 자동화에서는 ‘무엇이 보이는가’만큼 ‘어디에 있는가’가 중요하다. Opus 4.7에서는 모델이 반환하는 좌표가 실제 이미지 픽셀과 1:1로 대응한다고 Anthropic은 설명한다.[4] 클릭, 드래그, 특정 영역 검증, 화면 요소 찾기 같은 워크플로에서는 모델 좌표를 원본 스크린샷에 옮길 때 별도 리사이즈 비율을 계산해야 하는 부담이 줄어들 수 있다.[
4]
문서·슬라이드·아티팩트에서는 정보 밀도가 관건
문서나 슬라이드는 텍스트만으로 구성되지 않는다. 표, 차트, 축 라벨, 주석, 머리말과 꼬리말, 여러 단의 본문이 함께 들어간다. Anthropic은 Opus 4.7의 비전 개선 대상 맥락으로 문서와 아티팩트를 명시했다.[4]
Anthropic의 Claude Opus 4.7 제품 페이지도 이 모델을 개선된 비전과 인터페이스, 슬라이드, 문서 같은 전문적인 출력물 맥락에서 소개한다.[1] 따라서 캡처된 슬라이드 읽기, 문서 레이아웃 확인, 이미지 형태의 표·차트 분석을 업무 흐름에 넣고 있다면, Opus 4.7은 실제 데이터로 비교 테스트해볼 만한 후보가 된다.[
1][
4]
읽는 것만큼 중요한 ‘위치 파악’
비전 모델을 업무 자동화에 붙이면 단순 인식보다 위치 파악이 더 중요해지는 순간이 많다. 예를 들어 버튼이 있다는 사실을 아는 것과 그 버튼의 위치를 아는 것은 다르다. 차트가 있다는 사실과 차트 안의 특정 구간을 찾는 것도 별개의 일이다.
Opus 4.7에서 Anthropic이 언급한 개선에는 바운딩 박스, 자연 이미지 객체 탐지, 가리키기, 측정, 세기 같은 작업이 포함된다.[4] 스크린샷과 문서 분석에서도 이런 기능은 버튼, 입력창, 표 영역, 그래프, 특정 시각 요소를 정확히 지목해야 할 때 의미가 있다.[
4]
아직 ‘OCR 정확도 X% 향상’이라고 말하긴 어렵다
이 글에서 다룬 공식 자료는 스크린샷 OCR이나 문서 OCR이 몇 퍼센트 좋아졌다는 식의 별도 벤치마크 수치를 제시하지 않는다.[1][
4] 따라서 더 정확한 표현은 이렇다. Opus 4.7의 비전은 더 높은 이미지 해상도 입력, 개선된 기초 시각 인식, 향상된 이미지 내 위치 파악, 1:1 픽셀 좌표를 제공하며, Anthropic은 이를 스크린샷·아티팩트·문서 이해에 중요하다고 설명했다.[
4]
즉, 해상도가 병목이던 이미지에서는 개선을 기대할 근거가 있다. 하지만 모든 스크린샷과 모든 문서 OCR에서 고정된 비율만큼 성능이 오른다고 단정할 공개 수치는 아직 부족하다.[1][
4]
실제 워크플로에서 테스트하는 방법
Opus 4.7 Vision을 제품이나 사내 자동화에 붙일 계획이라면, 몇 장의 샘플만 보는 것보다 사용 시나리오별로 나눠 검증하는 편이 낫다.
- 고해상도 원본과 축소본 비교: 같은 문서나 스크린샷을 원본 해상도와 낮은 해상도 버전으로 넣어, 추가 픽셀이 실제 답변 품질에 주는 차이를 확인한다.[
4]
- UI 스크린샷 테스트: 버튼, 입력창, 오류 메시지, 선택된 탭, 표의 특정 셀처럼 작은 요소를 찾아보게 한다.
- 문서·슬라이드 테스트: 표, 각주, 작은 차트 라벨, 여러 단 레이아웃을 포함한 자료를 사용한다. 문서와 아티팩트는 Anthropic이 비전 개선 맥락에서 직접 언급한 범주다.[
4]
- 자동화 좌표 검증: 모델이 반환한 좌표나 바운딩 박스가 실제 원본 이미지 픽셀과 1:1로 맞는지 확인한다.[
4]
- OCR은 별도 측정: 공식 자료에는 스크린샷·문서 OCR 전용 향상률이 제시돼 있지 않으므로, 업무에 쓰는 대표 문서 세트로 직접 오답률을 측정해야 한다.[
1][
4]
결론
Claude Opus 4.7의 비전 업그레이드는 정보가 빽빽한 이미지와 위치 기반 자동화에서 의미가 크다. 기억할 만한 변화는 세 가지다. 입력 이미지 한도가 2,576px / 3.75MP로 올라갔고, 기초 시각 인식과 이미지 내 위치 파악이 개선됐으며, 반환 좌표가 실제 이미지 픽셀과 1:1로 대응한다는 점이다.[4]
스크린샷, 문서, 아티팩트, computer use에는 분명히 더 잘 맞는 방향의 개선이다. 다만 문서 OCR을 대규모 제품 기능으로 쓰려면, 발표된 해상도 수치만으로 결론을 내리기보다 실제 데이터셋에서 직접 벤치마크하는 것이 안전하다.[1][
4]




