| 중국 / Huawei |
| Da Vinci 아키텍처, 약 7nm |
| 약 256 TFLOPS FP16 |
| HBM |
| 약 1.2 TB/s |
| 약 350W |
| 2019년 출시된 화웨이의 대표 AI 칩. |
| Huawei Ascend 910C | 중국 / Huawei | 칩렛 구조 (910B 기반) | 약 800 TFLOPS FP16 추정 | 약 96–128GB HBM | 약 3.2 TB/s | 약 310W | A100/H100급 경쟁 목표. |
| Biren BR100 | 중국 / Biren | 듀얼 다이 GPU, TSMC 7nm | 256 TFLOPS FP32 | 64GB HBM2E | 약 2.3 TB/s | 약 550W | 약 770억 트랜지스터 GPU 가속기. |
| Biren BR104 | 중국 / Biren | 단일 다이 GPU | 약 128 TFLOPS FP32 | 32GB HBM2E | 약 819 GB/s | 약 300W | 데이터센터 PCIe 카드용 변형. |
| Cambricon MLU370‑X8 | 중국 / Cambricon | MLUarch03, 7nm | 96 TFLOPS FP16 / 256 TOPS INT8 | 48GB LPDDR5 | 614 GB/s | 약 250W | MLU‑Link 기반 다중 카드 클러스터 지원. |
현재 공개된 수치를 보면 대형 모델 학습용 최고 성능에서는 미국 칩이 앞선다.
예를 들어:
또 다른 중국 칩인 Biren BR100은 다음 성능을 목표로 한다.
대형 AI 모델은 연산 능력만큼이나 메모리 용량과 대역폭이 중요하다.
예를 들어 수천억 파라미터 모델을 학습하려면 GPU 메모리 안에서 거대한 텐서를 계속 이동시켜야 한다.
대표 사례:
HBM(High Bandwidth Memory)은 AI 칩에서 사실상 필수 요소가 됐다.
현대 AI 모델은 단일 칩이 아니라 수백~수천 개 칩을 연결한 클러스터에서 학습된다.
대표적인 연결 기술:
최근 AI 경쟁에서는 칩 자체 성능보다 클러스터 규모와 네트워크 설계가 더 중요한 요소가 되기도 한다.
AI 칩 성능은 제조 기술과 패키징 기술에 크게 영향을 받는다.
예를 들어:
미국 설계 칩들은 일반적으로 첨단 파운드리와 패키징 공급망을 활용할 수 있다는 장점이 있다.
AI 컴퓨팅에서 하드웨어만큼 중요한 것이 소프트웨어 스택이다.
대표 생태계:
개발자 도구, 프레임워크 지원, 클라우드 통합 여부가 실제 AI 워크로드 채택을 좌우하는 경우가 많다.
현재 세 가지 특징이 뚜렷하다.
1. 최고 성능은 아직 미국 우세
2. 중국은 다중 칩 전략으로 대응
3. 경쟁 단위가 ‘칩 → AI 시스템’으로 확대
이제 경쟁은 단일 GPU가 아니라 수천 개 가속기로 구성된 AI 슈퍼컴퓨터 수준에서 이루어진다.
AI 반도체 경쟁은 단순히 트랜지스터 수나 TFLOPS 경쟁이 아니다.
실제 경쟁 요소는 다음과 같다.
생성형 AI 모델이 계속 커지는 상황에서, 어떤 국가가 더 효율적으로 대규모 AI 인프라를 구축하느냐가 향후 AI 산업의 주도권을 결정할 가능성이 높다.
Comments
0 comments