SemiAnalysis拆解华为麒麟9030:制程受阻,折叠开路
반도체 역설계 분야에서 TechInsights는 수십 년간 지배력을 유지해 왔습니다. 지난 주말, Dylan Patel의 SemiAnalysis가 공식적으로 자체 STEEL 연구소(Teardown Engineering & Evaluation Lab)의 첫 번째 공개 분해 보고서를 발표했습니다. 그 대상은 전 세계에서 가장 주목받는 칩 중 하나인 화웨이 메이트 80 Pro에 탑재된 기린 9030 Pro로, SMIC의 최첨단 N+3 공정을 채택했습니다.
시점이 매우意味深长합니다. TechInsights가 사모펀드에 의해 매각되고 있는 가운데, SemiAnalysis의 수익은 이미 이 거물을 추월했습니다. Dylan은 이 시점에 기술적 함량이 매우 높은 분해 보고서와 오리건 주에 위치한 연구소의 실물 칩 사진을 공개하며 칼을 빼들었습니다.
보고서의 제목은 그 자체로 폭탄과 같습니다: SMIC N+3의 최소 금속 피치(M0 pitch)는 단 32.5nm로, 인텔 최신 Panther Lake 프로세서에 사용된 18A 공정의 36nm보다도 더 작습니다.
SMIC가 EUV 노광 장비 없이도 금속 피치를 인텔보다 더 미세하게 만들었다고?
이 소식은 제목만 본다면 반도체 업계 전체를 발칵 뒤집기에 충분하지만, SemiAnalysis는 보고서 두 번째 단락에서부터 찬물을 끼얹었습니다. 이는 "cherry picked metric", 즉 의도적으로 선택된 지표라고 말입니다.
이 글에서는 해당 분해 보고서를 분석해 보겠습니다.
밀도는 따라잡았지만, 대가는 혹독했다
SMIC의 N+3 공정은 트랜지스터 밀도 면에서 실제로 TSMC의 N6를 따라잡았습니다.
STEEL 연구소는 TEM(투과전자현미경) 단면 분석을 통해 N+3의 Bohr 밀도를 113.4 MTr/mm²로 측정했으며, 이는 TSMC N6의 107.7 MTr/mm²보다 약간 높은 수치입니다. 셀 높이는 N+2의 252nm에서 228nm로 줄었고, 접촉 게이트 피치(CGP)는 63nm에서 57nm로 감소했습니다. 이러한 수치들을 종합하면, SMIC가 EUV 없이 순수 DUV 리소그래피만으로 로직 밀도를 TSMC의 성숙한 7nm 수준까지 끌어올렸음을 의미합니다.
그 대가는 무엇일까요?
SMIC의 M0 레이어는 SAQP(자기 정렬 4중 패터닝)를 사용합니다. 즉, 하나의 포토마스크 패턴을 네 번 가공하여 더 미세한 선폭을 구현합니다. TSMC N6는 동일한 레이어에서 SADP(이중 패터닝)만 필요로 합니다. 4중 패터닝은 더 많은 포토마스크 수, 더 높은 정렬 정밀도 요구사항, 더 복잡한 공정 흐름, 그리고 더 높은 비용을 의미합니다.
SemiAnalysis는 단면 사진에서 SAQP의 대가를 직접 확인했습니다. N+3의 M0 트렌치는 역삼각형 윤곽(하단이 상단보다 좁음)을 뚜렷이 보여주었고, 트렌치 하단에는 명확한 베리어층 농축대가 형성되어 있었습니다. 이러한 형태는 구리 충전에 도움이 될 수 있지만, 32.5nm라는 이 피치에서는 공정 제어의 난이도가 급격히 상승합니다.
트레이더가 이해할 수 있는 비유를 들자면: SMIC는 동일한 액면가의 지폐를 찍어내고 있지만, 매 장의 인쇄 비용은 TSMC의 몇 배에 달하며 수율 위험도 더 큽니다. 밀도는 같지만, 경제성은 완전히 다른 이야기입니다.
기린 9030: 제약된 조건 속에서, 모든 실리콘을 짜내다
화웨이 하이실리콘의 칩 설계 능력은 또 다른 차원의 이야기입니다.
칩 면적 측면에서 기린 9030은 이전 세대인 9020과 거의 동일한 크기(약 140mm²)지만, 내부에는 더 많은 것들이 들어갔습니다: CPU는 1개의 빅 코어 + 3개의 미드 코어에서 1빅 + 4미드로 업그레이드되었고, GPU 컴퓨팅 유닛은 4개에서 6개로 증가했으며, NPU에도 Tiny 코어가 하나 추가되었고, 모든 레벨의 캐시가 전면 확장되었습니다. N+3의 밀도 향상으로 화웨이는 동일한 칩 크기에 더 많은 로직 유닛을 탑재할 수 있게 되었습니다.
성능 면에서 STEEL 연구소는 공개된 벤치마크 점수를 인용하여 명확한 위치를 제시했습니다: 기린 9030의 GPU 성능(Maleoon 935)은 대략 2022년 플래그십 수준을 따라잡았으며, 3DMark WLE 점수는 이전 세대 대비 70% 향상되어 스냅드래곤 8+ Gen 1을 약간 웃돌지만, 현재 플래그십인 스냅드래곤 8 Elite Gen 5와 비교하면 2.4배에서 2.6배의 차이를 보입니다.
CPU의 상황이 문제를 더 잘 설명해 줍니다. 빅 코어 TaiShan Prime의 클럭당 성능(IPC)은 대략 Arm Cortex-X2 수준으로, 이는 2021년의 설계입니다. 애플이 2020년에 출시한 M1 Firestorm 코어는 여전히 IPC가 35% 더 높습니다. 최신 Apple M5 P 코어는 IPC가 60% 더 높고, 절대 성능은 2.7배입니다.
격차의 근본 원인은 설계가 아닌, 공정에 있습니다. 애플과 퀄컴은 TSMC의 N4, N3P 공정을 사용하는데, 이 공정들은 전압-주파수 곡선에서 본질적인 이점을 제공합니다: 동일한 면적에 더 많은 트랜지스터를 집적할 수 있고, 동일한 전력 소비로 더 높은 주파수를 구현할 수 있습니다. 화웨이의 코어 설계 수준은 업계 1세대 전의 최고 수준에 맞먹지만, 두 세대 전의 제조 공정에 갇혀 있습니다.
공정 발전이 정체되자, 화웨이는 '접는' 방법을 준비하다
보고서에서 가장 선견지명이 있는 부분은 화웨이가 2026년 ISCAS 컨퍼런스에서 발표한 τ(타우) 스케일링 법칙과 LogicFolding 로드맵입니다.
전통적인 반도체 스케일링은 2차원 평면에서 진행됩니다: 트랜지스터를 더 작게 만들고, 금속 배선을 더 가늘게 만드는 것입니다. 무어의 법칙은 수십 년간 본질적으로 이 작업을 수행해 왔습니다. 화웨이가 현재 제안하는 τ 스케일링은 최적화 목표를 공간 영역에서 시간 영역으로 전환합니다. 핵심은 데이터 이동 및 처리 시간 비용(트랜지스터 스위칭 지연, 신호 전파 지연, 연산 및 저장 지연 포함)을 단축하는 것입니다.
LogicFolding은 이 이론의 엔지니어링 구현입니다. 간단히 말해, 동일한 로직 모듈을 상하 두 개의 레이어로 나누어 페이스-투-페이스로 적층하고, 초미세 피치의 하이브리드 본딩으로 연결하는 것입니다. 이렇게 하면 얻을 수 있는 직접적인 이점은 가장 긴 신호 경로를 단축하는 것입니다. 현대 칩에서 전력 소모와 지연의 상당 부분은 긴 연결선과 중계 버퍼를 구동하는 데 사용됩니다. 로직을 수직으로 접으면 중요 경로가 짧아져 주파수를 높이고 전력 소모를 낮출 수 있습니다.
화웨이는 과감한 로드맵을 제시했습니다: 기린 9030의 빅 코어 주파수는 2.75GHz이며, 실험실에서는 이미 3.39GHz의 샘플 칩을 구현했고, 목표는 2031년까지 5GHz에 도달하는 동시에 3D 적층을 통해 등가 밀도를 295 MTr/mm²까지 끌어올려 TSMC 14A 수준에 맞추는 것입니다.
SemiAnalysis는 이에 대해 경계심을 늦추지 않았습니다. 그들은 화웨이의 밀도 계산 방식이 전통적인 파운드리와 다르다고 지적합니다. 3D 적층 밀도는 패키징 면적을 기준으로 계산되며, 여러 층의 능동 로직을 함께 쌓으면 당연히 더 높은 수치가 나옵니다. 동일한 방법으로 AMD의 MI450X(N2 상층 + N3P 하층)를 계산하면 이론적 밀도는 무려 460.2 MTr/mm²로, 화웨이의 2031년 목표치를 훨씬 웃돕니다.
그러나 방향 자체는 주목할 가치가 있습니다. 화웨이가 이 길을 가는 것은 본질적으로 공정이 제한된 상황에서 "파운드리의 일을 시스템 설계 회사가 떠안는" 것입니다. AMD의 V-Cache는 캐시에 3D 적층을 적용하고, AMD MI350X는 IO와 인터커넥트를 하단 칩으로 옮겼습니다. 화웨이가 하려는 것은 훨씬 더 과감합니다: 동일한 로직 블록을 직접 분할하여 수직으로 배포하는 것입니다. 이는 엔지니어링 난이도 측면에서 완전히 다른 차원의 도전입니다.
수출 통제, 경쟁의 차원을 재편하다
SemiAnalysis의 최종 결론은 간단명료합니다: 수출 통제는 중국의 칩 발전을 막지 못했지만, 발전의 경로와 대가를 변화시켰습니다.
SMIC의 N+3은 EUV 없이도 N6 수준의 로직 밀도를 달성할 수 있음을 증명했습니다. 하지만 이 경로는 더 높은 비용, 더 복잡한 공정, 그리고 제어하기 어려운 수율을 수반합니다. 더 나아갈수록 각 단계의 한계 난이도는 더욱 커집니다: 더 많은 포토마스크, 더 엄격한 정렬 정밀도, 더 고가의 다중 패터닝이 필요합니다. 이론적으로 N+4는 137.8 MTr/mm²(TSMC N5에 해당)까지 가능하며, N+5에 후면 전원 공급 기술이 추가되면 인텔 18A의 HP 라이브러리에 근접할 수도 있습니다. 하지만 각 단계는 이전 단계보다 더 어렵고, 더 비싸며, 오류 허용 범위가 더 좁습니다.
한편, SMIC의 N+2 및 N+3 공정은 화홍(Hua Hong)으로 이전되고 있으며, 알리 pingtouge, Cambricon 등의 설계 회사도 수혜를 입을 가능성이 있습니다. 칩 제조 지식이 단일 파운드리에서 생태계 전체로 확산되면서, 특정 기업을 겨냥한 제재의 효력은 더욱 희석되고 있습니다.
설계 측면에서는 화웨이와 베이징 대학이 이미 LogicFolding을 위한 국산 EDA 도구 프로토타입을 개발 중입니다. 이것이 Synopsys와 Cadence의 완전한 툴 체인을 대체하는 것은 아니지만, 국산 EDA는 "아키텍처-공정-패키징 공동 최적화" 방향으로 진화하고 있습니다.
흥미로운 세부 사항이 하나 있습니다. STEEL은 분해 과정에서 기린 9030 Pro의 DRAM이 삼성(K4L2E165YD, LPDDR5X-9600, 1a 공정 노드) 제품임을 발견했지만, 16GB Pro Max 버전에서는 삼성과 창신 메모리(CXMT)의 패키지가 동시에 발견되었습니다. 창신 메모리의 칩 패키징 날짜는 2025년 제45주로 표시되어 있으며, 공정 밀도는 업계 1z 수준과 비슷합니다. 이는 중국산 스토리지 칩이 비록 공정에서 삼성 및 SK하이닉스보다 1~2세대 뒤쳐져 있지만, 화웨이의 플래그십 공급망에 진입하기 시작했음을 의미합니다.
투자자 입장에서 진정으로 추적할 가치가 있는 신호는 화웨이의 3D 적층 로드맵이 비용을 통제 가능한 수준으로 유지하면서 중국산 칩이 스마트폰, AI 추론, 네트워크 장비 등 여러 분야에서 '사용 가능'한 수준의 성능에 도달할 수 있느냐는 점입니다.
일단 '사용 가능'하다는 것이 입증되면, 이 공급망의 전략적 가치는 재평가될 것입니다.


