GPT-5.5 và Claude Opus 4.7: ai thắng ở coding, tìm kiếm, thiết kế và sáng tạo?

Ở mảng coding, GPT 5.5 có cơ sở mạnh nhất để được xem là nhỉnh hơn, gồm điểm Terminal Bench 82,7% được báo cáo và lợi thế trong các bài cần dùng công cụ, dò tệp trên SWE Bench Verified [4][6]. Với tìm kiếm và web research, nên thử GPT 5.5 trước, nhưng không nên thổi phồng thành chiến thắng trực tiếp: dữ liệu công kh...

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

18K0

GPT-5.5와 Claude Opus 4.7 벤치마크 비교를 상징하는 AI 생성 이미지 — GPT-5.5 vs Claude Opus 4.7: 코딩은 GPT 우세, 디자인·창작은 아직 미정GPT-5.5와 Claude Opus 4.7의 코딩·검색·디자인·창작 비교를 표현한 AI 생성 에디토리얼 이미지.
AI 프롬프트
Create a landscape editorial hero image for this Studio Global article: GPT-5.5 vs Claude Opus 4.7: 코딩은 GPT 우세, 디자인·창작은 아직 미정. Article summary: 공개 자료 기준으로 코딩은 GPT 5.5가 Terminal Bench 82.7% 보도 등으로 근소 우세이고, 검색·리서치는 GPT 5.5부터 시험할 만합니다.. Topic tags: ai, openai, anthropic, chatgpt, claude. Reference image context from search candidates: Reference image 1: visual subject "# Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026). claude-opus-4-7-vs-gpt-5-5. Anthropic dropped Claude Opus 4.7 on April 16. Both with 1M token context windows. Both clai" source context "Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026)" Reference image 2: visual subject "# Claude Opus 4.7 vs GPT 5.5: Full Comparison (April 2026). claude-opus-4-7-vs-gpt-5-5. Anthropic dropped Claude Opus 4.7 on April 16. Both with 1M token context windows. Both clai" source context "Claude Opus 4.7 vs GPT 5.5: Full Compariso
openai.com

Nếu bạn đang chọn mô hình cho đội phát triển, nhóm nghiên cứu hay team nội dung, câu trả lời thực dụng là: không có một nhà vô địch cho mọi việc. Từ dữ liệu công khai hiện có, GPT-5.5 có lợi thế rõ nhất ở coding; tìm kiếm và web research cũng là nơi nên thử GPT-5.5 trước. Nhưng với thiết kế, UX và sáng tạo nội dung, bằng chứng chưa đủ để gọi tên người thắng chắc chắn ^[4]^[6]^[7]^[20].

Trước khi so điểm: Claude không còn mặc định hơn chỉ vì “ngữ cảnh dài”

Nhiều người thường mặc định Claude sẽ mạnh hơn trong các tác vụ dài như đọc tài liệu, brand guideline hay codebase lớn. Nhưng nếu chỉ nhìn thông số công khai được tổng hợp, kết luận đó hơi vội. LLM Stats ghi nhận cả GPT-5.5 lẫn Claude Opus 4.7 đều có cửa sổ ngữ cảnh 1 triệu token đầu vào và 128.000 token đầu ra; cả hai cũng hỗ trợ đầu vào văn bản và hình ảnh, đầu ra văn bản ^[3].

Một điểm cần nhớ nữa: benchmark không phải môi trường làm việc hằng ngày. OpenAI cho biết các đánh giá GPT-5.5 được chạy với mức reasoning effort xhigh trong môi trường nghiên cứu, nên một số trường hợp có thể khác với đầu ra ChatGPT trong sản phẩm thực tế ^[5]. Vì vậy, điểm số công khai chỉ nên là điểm khởi đầu; quyết định cuối cùng vẫn nên dựa trên prompt, công cụ và dữ liệu thật của bạn.

Bảng kết luận nhanh

Lĩnh vực	Kết luận từ dữ liệu công khai	Gợi ý dùng trong thực tế
Coding	GPT-5.5 nhỉnh hơn. Cơ sở chính là điểm Terminal-Bench 82,7% được báo cáo và lợi thế trong các bài cần dùng công cụ, dò tệp trên SWE-Bench Verified ^[4]^[6].	Với coding agent, sửa bug, tái hiện lỗi và điều hướng repository, hãy thử GPT-5.5 trước.
Tìm kiếm, web research	Nên thử GPT-5.5 trước. Opus 4.7 giảm điểm trên BrowseComp so với bản trước và thấp hơn GPT-5.4 Pro trong dữ liệu được báo cáo ^[20].	Dùng GPT-5.5 làm ứng viên đầu tiên cho agent nghiên cứu web, nhưng nhớ rằng chưa có điểm BrowseComp trực tiếp của GPT-5.5 trong dữ liệu này.
Thiết kế, UX	Chưa đủ cơ sở kết luận. Opus 4.7 được nhấn mạnh ở vision và phân tích tài liệu, còn GPT-5.5 cũng hỗ trợ ảnh và ngữ cảnh dài ^[3]^[7]^[14].	Với UX review, hãy đưa cùng brief cho cả hai. Nếu có cả viết code UI, nên thử GPT-5.5 trước.
Nội dung sáng tạo	Chưa đủ cơ sở kết luận. Cả hai đều có thể dùng cho nghiên cứu, coding và dự án sáng tạo, nhưng chất lượng sáng tạo rất khó đo bằng một benchmark chung ^[7].	Chấm mù A/B theo giọng thương hiệu, độ mới, khả năng sửa theo feedback và thời gian biên tập cuối.

Coding: GPT-5.5 đang có lợi thế rõ nhất

Trong bốn nhóm tác vụ, coding là nơi có nhiều bằng chứng nhất để nói GPT-5.5 đang nhỉnh hơn. Interesting Engineering đưa tin GPT-5.5 đạt 82,7% trên Terminal-Bench và vượt Claude Opus 4.7 trong bối cảnh agentic coding ^[6].

Ở SWE-Bench Verified, benchmark thường được dùng để đánh giá khả năng xử lý issue GitHub thực tế, bức tranh cũng tương tự nhưng không phải một chiều. MindStudio nhận xét cả hai mô hình đều cạnh tranh ở nhóm đầu, trong đó GPT-5.5 hơi nhỉnh hơn ở các bài cần dùng công cụ chính xác và điều hướng tệp; Claude Opus 4.7 lại mạnh hơn ở những tác vụ cần suy luận kiến trúc trên codebase lớn ^[4].

Điều đó không có nghĩa Claude Opus 4.7 yếu ở lập trình. Anthropic mô tả Opus 4.7 là mô hình suy luận lai dành cho coding và AI agent, có cửa sổ ngữ cảnh 1 triệu token ^[14]. BenchLM cũng xếp Claude Opus 4.7 hạng 2 ở nhóm coding, programming và hạng 2 ở nhóm agentic tool use, computer tasks ^[15].

Cách đọc hợp lý là: nếu bạn cần tự động hóa sửa lỗi, chạy test, lần theo file, hoặc giao việc cho coding agent, GPT-5.5 đáng được thử trước ^[4]^[6]. Nếu bài toán là refactor lớn, review kiến trúc hoặc hiểu quan hệ nhiều module trong một repository lớn, Claude Opus 4.7 vẫn nên nằm trong danh sách so sánh ^[4].

Tìm kiếm và web research: ưu tiên GPT-5.5, nhưng đừng gọi là thắng tuyệt đối

Với tìm kiếm và nghiên cứu web, GPT-5.5 là ứng viên nên kiểm tra đầu tiên. Tuy nhiên, lý do không giống mảng coding: ở đây bằng chứng chủ yếu cho thấy điểm yếu của Opus 4.7, chứ chưa phải một chiến thắng trực tiếp đã được công bố của GPT-5.5.

Verdent mô tả BrowseComp là benchmark đo khả năng nghiên cứu web nhiều bước: duyệt nhiều trang, tổng hợp và suy luận qua nhiều nguồn. Theo dữ liệu này, Claude Opus 4.7 giảm từ 83,7% ở Opus 4.6 xuống 79,3%; trong khi GPT-5.4 Pro đạt 89,3% và Gemini 3.1 Pro đạt 85,9%, đều cao hơn Opus 4.7 ^[20]. MindStudio cũng đánh giá Opus 4.7 có bước lùi ở web research ^[17].

Điểm cần giữ tỉnh táo: những số liệu trên không cung cấp điểm BrowseComp trực tiếp của GPT-5.5 ^[20]. Mashable ghi nhận OpenAI nhấn mạnh GPT-5.5 cải thiện ở agentic coding, computer use, knowledge work và nghiên cứu khoa học giai đoạn đầu, nhưng điều đó chưa đủ để khẳng định GPT-5.5 luôn hơn trong mọi tác vụ tìm kiếm ^[7].

Vì vậy, nếu bạn xây pipeline nghiên cứu web, hãy thử GPT-5.5 trước, nhưng cần chấm riêng các tiêu chí như độ chính xác của trích dẫn, độ đa dạng nguồn, khả năng tránh thông tin cũ và năng lực suy luận nhiều bước.

Thiết kế và UX: phải tách “đọc hình”, “góp ý trải nghiệm” và “viết code UI”

Thiết kế không phải một năng lực đơn lẻ. Đọc screenshot để góp ý UX, phân tích guideline thương hiệu, chỉnh giọng microcopy và viết component frontend là những việc rất khác nhau. Vì vậy, một câu hỏi “mô hình nào giỏi thiết kế hơn?” dễ dẫn đến kết luận quá đơn giản.

Có lý do để đưa Claude Opus 4.7 vào nhóm ứng viên mạnh cho review thiết kế. Anthropic nói Opus 4.7 cải thiện ở coding, vision và các tác vụ phức tạp nhiều bước, đồng thời nhất quán hơn trong công việc tri thức chuyên môn ^[14]. Mashable cũng ghi nhận Anthropic nhấn mạnh các cải thiện của Opus 4.7 ở advanced coding, visual intelligence và document analysis ^[7].

Nhưng GPT-5.5 cũng được tổng hợp là hỗ trợ đầu vào hình ảnh và ngữ cảnh dài ^[3]. Với dữ liệu công khai được cung cấp, chưa có benchmark chuẩn, trực diện và đủ công bằng để kết luận mô hình nào đánh giá thẩm mỹ, critique UX hay diễn giải brand guideline tốt hơn.

Kết luận thực tế: với UX review, brand guideline và phản hồi chiến lược thiết kế, hãy đưa cùng brief, cùng ảnh, cùng tiêu chí chấm cho cả GPT-5.5 và Claude Opus 4.7. Nếu bài toán kéo dài sang hiện thực hóa giao diện bằng code, GPT-5.5 đáng được thử trước nhờ lợi thế coding rõ hơn ^[4]^[6].

Nội dung sáng tạo: benchmark kém quan trọng hơn bài test mù

Sáng tạo nội dung cũng là mảng chưa thể chốt thắng thua bằng benchmark công khai. Mashable nhận định cả GPT-5.5 và Claude Opus 4.7 đều có thể dùng rộng rãi cho nghiên cứu, coding và các dự án sáng tạo ^[7]. Nhưng với tiểu thuyết, kịch bản, quảng cáo, chiến dịch thương hiệu hay storytelling, chất lượng phụ thuộc nhiều vào gu, ngữ cảnh và tiêu chuẩn biên tập.

Cũng không nên nói Claude tự động thắng trong các bản thảo dài chỉ vì ngữ cảnh lớn. Opus 4.7 có cửa sổ ngữ cảnh 1 triệu token, nhưng LLM Stats cũng ghi nhận GPT-5.5 có cùng mức 1 triệu token đầu vào và 128.000 token đầu ra ^[3].

Với creative work, quy trình đánh giá quan trọng hơn tên mô hình. Cách an toàn là đưa cùng brief cho hai bên, ẩn tên mô hình, rồi chấm theo các tiêu chí: giữ giọng thương hiệu, độ mới của ý tưởng, nhịp kể chuyện, khả năng tiếp thu yêu cầu sửa và thời gian biên tập để ra bản cuối.

Nên chọn mô hình nào?

Tự động hóa phát triển phần mềm: ưu tiên GPT-5.5. Điểm Terminal-Bench 82,7% và lợi thế trong bài cần dùng công cụ, điều hướng tệp là cơ sở chính ^[4]^[6].
Đánh giá kiến trúc và codebase lớn: đưa Claude Opus 4.7 vào vòng thử nghiệm. Opus 4.7 được ghi nhận mạnh hơn ở suy luận kiến trúc trên codebase lớn ^[4].
Tìm kiếm, báo cáo web research: thử GPT-5.5 trước. Opus 4.7 giảm trên BrowseComp và thấp hơn GPT-5.4 Pro trong dữ liệu được báo cáo ^[20].
Review thiết kế, UX, tài liệu thương hiệu: chưa có người thắng công khai. Hãy so sánh hai mô hình bằng cùng brief và cùng rubric ^[3]^[7]^[14].
Nội dung sáng tạo: đừng chọn chỉ bằng benchmark. Hãy chạy A/B test mù trên đúng giọng thương hiệu và loại nội dung bạn cần ^[7].

Tóm lại, kết luận phòng thủ nhất hiện nay là: coding nghiêng về GPT-5.5, tìm kiếm và web research nên thử GPT-5.5 trước, còn thiết kế và sáng tạo nội dung vẫn cần kiểm chứng bằng bài test riêng. Với các nhóm làm sản phẩm, cách khôn ngoan không phải là chọn theo danh tiếng, mà là cho hai mô hình làm cùng một việc, rồi đo kết quả bằng tiêu chí của chính bạn.

Studio Global AI

Search, cite, and publish your own answer

Use this topic as a starting point for a fresh source-backed answer, then compare citations before you share it.

Studio Global AI로 검색 및 팩트체크

주요 시사점

Ở mảng coding, GPT 5.5 có cơ sở mạnh nhất để được xem là nhỉnh hơn, gồm điểm Terminal Bench 82,7% được báo cáo và lợi thế trong các bài cần dùng công cụ, dò tệp trên SWE Bench Verified [4][6].
Với tìm kiếm và web research, nên thử GPT 5.5 trước, nhưng không nên thổi phồng thành chiến thắng trực tiếp: dữ liệu công khai chủ yếu cho thấy Opus 4.7 tụt trên BrowseComp và kém GPT 5.4 Pro [20].
Thiết kế, UX và nội dung sáng tạo chưa có benchmark đối đầu đủ rõ. Cách an toàn là đưa cùng brief cho hai mô hình và chấm mù theo tiêu chí của đội ngũ.

사람들은 또한 묻습니다.

"GPT-5.5 và Claude Opus 4.7: ai thắng ở coding, tìm kiếm, thiết kế và sáng tạo?"에 대한 짧은 대답은 무엇입니까?

먼저 검증할 핵심 포인트는 무엇인가요?

실무에서는 다음으로 무엇을 해야 합니까?

Thiết kế, UX và nội dung sáng tạo chưa có benchmark đối đầu đủ rõ. Cách an toàn là đưa cùng brief cho hai mô hình và chấm mù theo tiêu chí của đội ngũ.

다음에는 어떤 관련 주제를 탐구해야 할까요?

다른 각도와 추가 인용을 보려면 "Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일"으로 계속하세요.

관련 페이지 열기

이것을 무엇과 비교해야 합니까?

"Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수"에 대해 이 답변을 대조 확인하세요.

관련 페이지 열기

연구를 계속하세요

IT Consulting Orange County CA, IT Services, IT Outsourcing - Technijian. # Anthropic Claude Security for Enterprise: What You Need to Know. Anthropic has officially opened Claude

Claude Security 공개 베타: 앤트로픽의 AI 코드 취약점 스캐너가 하는 일

Claude Security 공개 베타, 기업 코드 보안을 AI로 훑는 방식

抽象 AI 介面顯示 Grok 4.3 API、1M context、token 價格與語音波形

Grok 4.3 API 분석: 100만 토큰과 낮은 단가, xAI의 다음 승부수

For the part of factors contributing to the issue, please use Logical synthesis of factors And using leadership frameworks, and gap analysis

홍콩 RCHE에서 ‘제자리 임종’이 어려운 이유

홍콩 요양시설 ‘제자리 임종’의 장애 요인: 리더십과 격차 분석

샤오미 Q5는 MIX 5가 아닐 가능성: 최신 단서는 샤오미 18 시리즈

샤오미 Q5, MIX 5일까? 최신 정황은 ‘샤오미 18’ 쪽

연구 대화

당신2026년 4월 26일

연구문제

GPT-5.5와 Claude Opus 4.7의 벤치마크를 조사해줘. 코딩, 디자인, 창의적 콘텐츠, 검색에서는 누가 이길까?

Studio Global AI2026년 4월 26일24 소스

인용 답변

짧게 말하면, 공개 벤치마크 기준으로는 GPT-5.5가 코딩·검색에서 더 유리하고, Claude Opus 4.7은 디자인/글쓰기처럼 주관적 품질과 긴 컨텍스트 작업에서 강점이 더 뚜렷합니다. 다만 “디자인”과 “창의적 콘텐츠”는 표준화된 신뢰도 높은 공개 벤치마크가 부족해, 승패는 사용 사례별 테스트가 필요합니다.

코딩: GPT-5.5 우세
- OpenAI는 GPT-5.5가 에이전트 코딩, 컴퓨터 사용, 지식 작업, 초기 과학 연구에서 개선됐다고 설명합니다 ^[15].
- GPT-5.5는 Terminal-Bench에서 82.7%로 Claude Opus 4.7을 앞선다는 보도가 있습니다 ^[14].
- SWE-Bench Verified 같은 실제 GitHub 이슈 해결 벤치마크에서는 둘 다 최상위권이지만, GPT-5.5가 도구 사용·파일 탐색이 필요한 문제에서 약간 앞서고, Opus 4.7은 대규모 리팩터링/아키텍처 판단에서 강하다는 비교가 있습니다 ^[12].
- 결론: 자동 코딩 에이전트, 버그 수정, 레포 탐색은 GPT-5.5 쪽을 먼저 선택하는 게 합리적입니다.
디자인: Claude Opus 4.7 약우세, 단 근거는 약함
- Anthropic은 Claude Opus 4.7을 코딩과 AI 에이전트 프런티어를 밀어올린 하이브리드 추론 모델이며 1M 컨텍스트를 제공한다고 설명합니다 ^[3].
- 긴 문서, 브랜드 가이드, 사용자 리서치, 카피 톤을 한 번에 넣고 작업하는 디자인 전략·UX 라이팅에는 1M 컨텍스트가 실용적 이점이 될 수 있습니다 ^[3].
- 반면 “시각 디자인 품질” 자체를 GPT-5.5와 Opus 4.7로 공정 비교한 권위 있는 공개 벤치마크는 확인되지 않습니다.
- 결론: UX 전략, 브랜드 톤, 긴 디자인 문서 작업은 Claude Opus 4.7, 코드 기반 UI 구현은 GPT-5.5가 더 나을 가능성이 큽니다.
창의적 콘텐츠: Claude Opus 4.7 약우세
- Claude 계열은 긴 맥락을 유지하며 문체, 감정선, 브랜드 보이스를 맞추는 작업에서 강점이 크고, Opus 4.7의 1M 컨텍스트는 장편 원고·캠페인 자료·세계관 문서 작업에 유리합니다 ^[3].
- 다만 창의성은 평가자 취향의 영향이 커서, 코딩처럼 단일 벤치마크로 “승자”를 확정하기 어렵습니다.
- 결론: 소설, 브랜드 카피, 스토리텔링, 톤 유지가 중요하면 Claude Opus 4.7을 추천합니다.
검색/리서치: GPT-5.5 우세
- Opus 4.7은 BrowseComp 같은 멀티스텝 웹 리서치 벤치마크에서 Opus 4.6보다 하락했고, GPT-5.4 Pro와 Gemini 3.1 Pro가 Opus 4.7을 앞선다는 분석이 있습니다 ^[9].
- GPT-5.5는 지식 작업과 에이전트 작업 개선이 강조됐고, 검색·브라우징형 작업에서는 Opus 4.7보다 안정적일 가능성이 높습니다 ^[15].
- 결론: 자료 조사, 출처 비교, 웹 검색 기반 보고서는 GPT-5.5 우세로 보는 게 안전합니다.

요약 표

분야	승자	이유
코딩	GPT-5.5	Terminal-Bench 및 도구 사용형 코딩에서 우세 ^[12]^[14]
디자인	Claude Opus 4.7 약우세	긴 컨텍스트 기반 UX/브랜드 작업에 유리, 단 객관 벤치마크 부족 ^[3]
창의적 콘텐츠	Claude Opus 4.7 약우세	장문 맥락·톤 유지에 유리, 단 주관적 평가 영역 ^[3]
검색/리서치	GPT-5.5	Opus 4.7의 BrowseComp 하락과 GPT 계열의 에이전트/지식 작업 강점 ^[9]^[15]

실무 선택이라면: 개발·리서치 자동화는 GPT-5.5, 긴 문서 기반 기획·카피·창작은 Claude Opus 4.7로 나누는 것이 가장 안전합니다.

출처

[3] GPT-5.5 vs Claude Opus 4.7: Pricing, Speed, Benchmarks - LLM Statsllm-stats.com
Spec GPT-5.5 Claude Opus 4.7 --- Provider OpenAI Anthropic Release date Apr 23, 2026 Apr 16, 2026 Model ID gpt-5.5 claude-opus-4-7 Input / output (≤200K) $5 / $30 per 1M $5 / $25 per 1M Input / output ( 200K) $5 / $30 per 1M (flat) $10 / $37.50 per 1M Conte...
[4] GPT-5.5 vs Claude Opus 4.7: Real-World Coding Performance ...mindstudio.ai
SWE-Bench and Coding Tasks On SWE-Bench Verified — the standard benchmark for evaluating real GitHub issue resolution — both models score competitively at the top of the 2026 leaderboard. GPT-5.5 holds a slight edge on problems requiring precise tool use an...
[5] Introducing GPT-5.5 - OpenAIopenai.com
Abstract reasoning EvalGPT-5.5GPT‑5.4GPT-5.5 ProGPT‑5.4 ProClaude Opus 4.7Gemini 3.1 Pro ARC-AGI-1 (Verified)95.0%93.7%-94.5%93.5%98.0% ARC-AGI-2 (Verified)85.0%73.3%-83.3%75.8%77.1% Evals of GPT were run with reasoning effort set to xhigh and were conducte...
[6] OpenAI's GPT-5.5 masters agentic coding with 82.7% benchmark ...interestingengineering.com
About UsAdvertise ContactFAQ Follow Us On LinkedInXInstagramFlipboardFacebookYouTubeTikTok All Rights Reserved, IE Media, Inc. AI and Robotics GPT-5.5 crushes Claude Opus 4.7 in agentic coding with 82.7% terminal-bench score GPT-5.5 introduces smarter task...
[7] OpenAI's GPT-5.5 vs Claude Opus 4.7: Which is better? | Mashablemashable.com
Opus 4.7 is available to Pro and Max customers; via the API, it's available for "$5 per million input tokens and $25 per million output tokens." GPT-5.5 and Opus 4.7: Feature set OpenAI says that GPT-5.5 makes noticeable improvements in "agentic coding, com...
[14] Claude Opus 4.7anthropic.com
Skip to main contentSkip to footer []( Research Economic Futures Commitments Learn News Try Claude Claude Opus 4.7 Image 1: Claude Opus 4.7 Image 2: Claude Opus 4.7 Hybrid reasoning model that pushes the frontier for coding and AI agents, featuring a 1M con...
[15] Claude Opus 4.7 Benchmarks 2026: Scores, Rankings & Performancebenchlm.ai
Is Claude Opus 4.7 good for knowledge and understanding? Claude Opus 4.7 ranks 1 out of 110 models in knowledge and understanding benchmarks with an average score of 99.2. It is among the top performers in this category. Is Claude Opus 4.7 good for coding a...
[17] Claude Opus 4.7 Review: What Actually Changed and What Got ...mindstudio.ai
BlogAbout Log inGet Started My Workspace Blog/Claude Opus 4.7 Review: What Actually Changed and What Got Worse ClaudeLLMs & ModelsComparisons Claude Opus 4.7 Review: What Actually Changed and What Got Worse Opus 4.7 fixes agentic persistence and boosts codi...
[20] Claude Opus 4.7: What Changed for Coding Agents (April 2026)verdent.ai
BrowseComp softened vs Opus 4.6 BrowseComp measures multi-step web research: browse, synthesize, and reason across multiple pages. Opus 4.7 dropped from 83.7% to 79.3% — a 4.4-point regression. GPT-5.4 Pro sits at 89.3%; Gemini 3.1 Pro at 85.9%. Both lead O...

GPT-5.5 và Claude Opus 4.7: ai thắng ở coding, tìm kiếm, thiết kế và sáng tạo?

Studio Global AI로 검색 및 팩트체크 Discover에서 더 많은 것을 찾아보세요

18K0