GPT-5.5의 성능을 한 숫자로 말해 달라는 요청은 꽤 흔하지만, 벤치마크는 시험 과목이 서로 다릅니다. 이 글에서 가장 짧고 안전하게 인용할 수 있는 값은 **GDPval 84.9%**입니다. OpenAI가 직접 공개한 수치이며, GDPval은 44개 직업에 걸쳐 ‘명확히 지정된 지식 업무’를 수행해 산출물을 만드는 능력을 평가한다고 설명됩니다.[1]
다만 이 값은 GPT-5.5의 보편적 ‘지능 점수’가 아닙니다. GDPval 84.9%는 전문 업무에 가까운 지식 작업에서 요구사항을 이해하고 정해진 결과물을 만드는 능력을 보여주는 지표로 읽는 편이 정확합니다.[1]
한 줄로 말하면
OpenAI에 따르면 GPT-5.5는 **GDPval에서 84.9%**를 기록했습니다. GDPval은 44개 직업 전반의 명확히 지정된 지식 업무 산출 능력을 평가하는 벤치마크입니다.[
1]
이 표현이 중요한 이유는 숫자만 떼어 내지 않고 ‘무엇을 재는 시험인지’를 함께 말하기 때문입니다. GDPval은 코딩 전용 시험도, 바이오인포매틱스 시험도, 외부 종합 순위표도 아닙니다.
공개적으로 언급된 주요 수치
| 벤치마크 또는 비교 | 공개된 값 | 무엇을 보는가 | 어떻게 읽어야 하나 |
|---|---|---|---|
| GDPval | 84.9% | 44개 직업에 걸친 명확히 지정된 지식 업무 산출 | OpenAI의 GPT-5.5 발표에 직접 등장하는 값이라 일반 설명에서 가장 인용하기 좋습니다.[ |
| Expert-SWE | 73.1% | 보도에 따르면 예상 소요 시간이 20시간인 코딩 과제를 다루는 OpenAI 내부 평가 | 소프트웨어 개발 맥락에서는 더 가까운 지표지만, GDPval과 직접 비교할 수 있는 퍼센트는 아닙니다.[ |
| BixBench | 80.5% | 실제 환경형 바이오인포매틱스 벤치마크 | 바이오인포매틱스 맥락에서는 유용하지만, 이 글의 근거 자료상 OpenAI 공식 GDPval 값보다 더 조심스럽게 인용하는 편이 좋습니다.[ |
| Artificial Analysis Intelligence Index | 1위, 3점 차 | Artificial Analysis가 운영하는 외부 모델 종합 지표 | 넓은 모델 비교에는 도움이 되지만, OpenAI가 제시한 단일 공식 벤치마크는 아닙니다.[ |
퍼센트끼리 바로 비교하면 왜 헷갈리나
84.9%, 73.1%, 80.5%는 모두 성능을 말하는 숫자처럼 보입니다. 하지만 같은 시험의 점수가 아닙니다.
- 84.9% GDPval: 여러 직업 영역에 걸친 지식 업무 산출 능력을 봅니다.[
1]
- 73.1% Expert-SWE: 코딩 과제를 대상으로 한 내부 평가로 보도됐습니다.[
8]
- 80.5% BixBench: 바이오인포매틱스 과제를 다루는 벤치마크입니다.[
10]
따라서 ‘어느 점수가 더 높으니 더 똑똑하다’고 말하기보다, 내가 보려는 작업에 맞는 시험을 고르는 것이 더 중요합니다. 일반 지식 업무라면 GDPval이 더 가까운 기준이고, 개발 업무라면 Expert-SWE, 바이오인포매틱스라면 BixBench가 주제상 더 맞습니다.[1][
8][
10]
Artificial Analysis 1위는 무엇을 의미하나
AI 모델 성능을 따로 비교하는 Artificial Analysis는 GPT-5.5가 자사 Intelligence Index에서 3점 차로 선두라고 밝혔습니다.[3] 동시에 OpenAI가 주요 평가 다섯 개에서 앞섰고, 세 개에서는 Gemini 3.1 Pro Preview에 뒤졌다고 설명합니다.[
3]
즉, 외부 종합 지표에서 1위라는 말은 ‘모든 개별 시험에서 이겼다’는 뜻이 아닙니다. 해당 기관의 방법론으로 여러 평가를 묶어 봤을 때 GPT-5.5가 전체적으로 앞섰다는 의미에 가깝습니다.[3]
기사 제목 속 숫자는 특히 조심해야 한다
일부 보도에는 법률 AI 역량과 관련한 91.7%, 에이전트형 코딩과 관련한 82.7% 같은 숫자도 등장합니다.[4][
5] 이런 수치가 특정 분야를 판단하는 데 유용할 수는 있습니다. 다만 일반적인 GPT-5.5 벤치마크로 인용하려면, 시험 설계와 비교 대상, 무엇을 측정했는지가 GDPval처럼 분명하게 붙어 있어야 합니다.[
1]
그러면 어떤 숫자를 인용해야 할까
대부분의 일반적 비교에서는 다음 문장이 가장 깔끔합니다.
GPT-5.5는 OpenAI 발표 기준 **GDPval에서 84.9%**를 기록했으며, GDPval은 44개 직업 전반의 명확히 지정된 지식 업무 산출 능력을 평가합니다.[
1]
목적이 더 구체적이라면 기준도 바꾸는 것이 좋습니다.
- 일반 지식 업무: GDPval 84.9%.[
1]
- 소프트웨어 개발: Expert-SWE 73.1%.[
8]
- 바이오인포매틱스: BixBench 80.5%, 단 근거 출처의 성격을 함께 확인해야 합니다.[
10]
- 넓은 모델 비교: Artificial Analysis Intelligence Index 1위, 3점 차.[
3]
결론
GPT-5.5를 짧게 설명할 때 가장 탄탄한 벤치마크 수치는 **GDPval 84.9%**입니다.[1] OpenAI가 직접 밝힌 값이고, 측정 대상도 ‘44개 직업에 걸친 명확히 지정된 지식 업무’로 비교적 분명합니다.[
1] 다만 코딩, 바이오인포매틱스, 법률 AI처럼 분야가 좁아지면 그 분야에 맞는 별도 지표를 함께 봐야 합니다.




