SemiAnalysis Dissects Huawei Kirin 9030: Process Hurdles, Foldable as a Path Forward
- Core Thesis: SemiAnalysis's latest teardown report reveals that SMIC has achieved a logic density comparable to TSMC's N6 on its N+3 process using a costly pure DUV process. However, this comes at the price of dramatically increased complexity and cost. Meanwhile, constrained by process limitations, Huawei is pivoting to a 3D stacking approach to break through performance bottlenecks.
- Key Elements:
- SMIC's N+3 process achieves a transistor density of 113.4 MTr/mm², slightly exceeding TSMC's N6 (107.7 MTr/mm²). Its minimum metal pitch (32.5nm) even outperforms Intel's 18A process (36nm), though this is a deliberately favorable metric.
- To achieve this high density, SMIC employs Self-Aligned Quadruple Patterning (SAQP) for the M0 layer. Compared to TSMC's Self-Aligned Double Patterning (SADP), this method is more expensive and involves more complex process control, resulting in an inverted trapezoidal trench profile.
- The Kirin 9030's GPU performance (Maleoon 935) rivals 2022 flagship SoCs (slightly surpassing the Snapdragon 8+ Gen 1). However, its large core IPC is comparable to the 2021 Arm Cortex-X2 level, resulting in a 2.7x performance gap compared to the latest Apple M5.
- Huawei has proposed Tau scaling laws and a LogicFolding roadmap. It plans to use 3D vertical stacking of logic modules to push large core frequencies to 5GHz by 2031, targeting an equivalent density comparable to TSMC's 14A node.
- Export controls have altered China's chip advancement path: SMIC's processes are diffusing to Hua Hong, CXMT (Changxin Memory Technologies) has been introduced into Huawei's flagship supply chain for DRAM, and domestic EDA tools are being co-optimized for 3D stacking.
ในด้านวิศวกรรมการย้อนรอย semiconductor นั้น TechInsights ครองตลาดมานานหลายทศวรรษ สุดสัปดาห์ที่แล้ว SemiAnalysis ของ Dylan Patel ได้เปิดตัวรายงานการถอดประกอบชิ้นแรกต่อสาธารณะจากห้องปฏิบัติการ STEEL (Teardown Engineering & Evaluation Lab) อย่างเป็นทางการ โดยมุ่งเป้าไปที่หนึ่งในชิปที่โลกให้ความสนใจมากที่สุด นั่นคือ Kirin 9030 Pro ที่มาพร้อมกับเทคโนโลยีการผลิต N+3 ที่ล้ำหน้าที่สุดของ SMIC
时机耐人寻味。TechInsights 正在被私募股权出售,而 SemiAnalysis 的营收已经超过了这家老牌巨头。Dylan 选择在这个节点亮剑,用的是一份技术含量极高的拆解报告,配合俄勒冈州实验室的实拍芯片照片。
ชื่อรายงานเป็นระเบิดลูกหนึ่ง: SMIC N+3 มีระยะห่างโลหะขั้นต่ำสุด (M0 pitch) เพียง 32.5nm ซึ่งเล็กกว่าระยะ 36nm ของกระบวนการ 18A ที่ใช้ในโปรเซสเซอร์ Panther Lake ล่าสุดของ Intel
SMIC สามารถทำให้ระยะห่างของโลหะละเอียดกว่า Intel ได้ โดยที่ไม่ต้องใช้เครื่อง EUV เลยหรือ?
إذا نظرنا فقط إلى عنوان الخبر، فهذا يكفي لإحداث ضجة في عالم أشباه الموصلات بأكمله، لكن SemiAnalysis نفسها خففت من حدة الأمر في الفقرة الثانية من التقرير، واصفة إياه بأنه "مؤشر منتقى بعناية" (cherry picked metric).
บทความนี้จะพาคุณไปทำความเข้าใจรายงานการถอดประกอบชิ้นนี้
ทัดเทียมในด้านความหนาแน่น แต่แลกมาด้วยต้นทุนที่สูง
กระบวนการ N+3 ของ SMIC นั้น มีความหนาแน่นของทรานซิสเตอร์เทียบเท่ากับ N6 ของ TSMC จริง
STEEL Lab ได้ทำการวิเคราะห์ภาพตัดขวางด้วย TEM (กล้องจุลทรรศน์อิเล็กตรอนแบบส่องผ่าน) และวัดค่าความหนาแน่น Bohr ของ N+3 ได้เท่ากับ 113.4 MTr/mm² ซึ่งสูงกว่า N6 ของ TSMC เล็กน้อยที่ 107.7 MTr/mm² ความสูงของเซลล์ลดลงจาก 252nm ใน N+2 เหลือ 228nm และระยะห่างระหว่างเกต (CGP) ลดลงจาก 63nm เหลือ 57nm ตัวเลขเหล่านี้รวมกันหมายความว่า SMIC สามารถทำความหนาแน่นของลอจิกให้เทียบเท่ากับระดับ 7nm ที่成熟ของ TSMC ได้ โดยใช้เฉพาะการพิมพ์หินแบบ DUV โดยปราศจาก EUV
代价是什么?
ชั้น M0 ของ SMIC ใช้เทคนิคการสร้างลวดลายสี่เท่าแบบจัดแนวตนเอง (SAQP) ซึ่งหมายถึงการนำลวดลายจากหน้ากากถ่ายทอดแสงเดียวมาผ่านกระบวนการสี่ครั้งเพื่อให้ได้เส้นที่ละเอียดยิ่งขึ้น ในขณะที่ TSMC N6 ใช้เพียงการสร้างลวดลายคู่ (SADP) ในชั้นเดียวกัน การใช้สี่เท่าหมายถึงจำนวนหน้ากากที่มากขึ้น ข้อกำหนดด้านความแม่นยำในการซ้อนทับที่เข้มงวดขึ้น กระบวนการผลิตที่ซับซ้อนมากขึ้น และต้นทุนที่สูงขึ้น
SemiAnalysis เห็นต้นทุนของ SAQP โดยตรงในภาพตัดขวาง: ร่อง M0 ของ N+3 มีลักษณะเป็นรูปสี่เหลี่ยมคางหมูแบบกลับหัว (ส่วนล่างแคบกว่าส่วนบน) และมีแถบสะสมของชั้นกั้นที่ชัดเจนที่ก้นร่อง แม้ว่าลักษณะสัณฐานนี้จะช่วยในการเติมทองแดง แต่ที่ระยะพิทช์ 32.5nm นั้น ความยากในการควบคุมกระบวนการผลิตจะเพิ่มสูงขึ้นอย่างรวดเร็ว
用交易员听得懂的比喻:SMIC กำลังพิมพ์ธนบัตรมูลค่าเท่ากัน แต่ต้นทุนการพิมพ์ต่อใบสูงกว่าของ TSMC หลายเท่า และความเสี่ยงด้านผลผลิตก็สูงกว่า แม้ความหนาแน่นจะเท่ากัน แต่หลักเศรษฐศาสตร์แตกต่างกันอย่างสิ้นเชิง
Kirin 9030: การบีบพื้นที่ทุกตารางนิ้วของซิลิคอนอย่างคุ้มค่า ภายใต้ข้อจำกัด
ความสามารถในการออกแบบชิปของ HiSilicon ของ Huawei นั้นเป็นเรื่องราวในอีกมิติหนึ่ง
ในแง่ของพื้นที่ชิป Kirin 9030 มีขนาดเกือบเท่ากับรุ่นก่อนหน้าอย่าง 9020 (ประมาณ 140mm²) แต่ภายในบรรจุสิ่งต่างๆ ได้มากขึ้น: CPU อัปเกรดจาก 1 บิ๊กคอร์ + 3 มิดคอร์ เป็น 1 บิ๊ก + 4 มิด, หน่วยประมวลผลกราฟิก (GPU) เพิ่มจาก 4 หน่วยเป็น 6 หน่วย, NPU เพิ่ม Tiny core อีกตัว และหน่วยความจำแคชทุกระดับขยายขนาดเพิ่มขึ้น การเพิ่มความหนาแน่นของ N+3 ทำให้ Huawei สามารถบรรจุลอจิกยูนิตต่างๆ ลงในขนาดชิปที่เท่าเดิมได้มากขึ้น
ในด้านประสิทธิภาพ STEEL Lab อ้างอิงข้อมูลคะแนนทดสอบสาธารณะ และให้คำจำกัดความที่ชัดเจน: ประสิทธิภาพ GPU (Maleoon 935) ของ Kirin 9030 นั้นทัดเทียมกับระดับเรือธงของปี 2022 โดยคะแนน 3DMark WLE เพิ่มขึ้น 70% จากรุ่นก่อนหน้า แซงหน้า Snapdragon 8+ Gen 1 เล็กน้อย แต่เมื่อเทียบกับ Snapdragon 8 Elite Gen 5 เรือธงปัจจุบัน ช่องว่างอยู่ที่ 2.4 ถึง 2.6 เท่า
สถานการณ์ของ CPU แสดงให้เห็นถึงปัญหาได้ชัดเจนยิ่งขึ้น Big core TaiShan Prime มีประสิทธิภาพต่อคำสั่ง (IPC) อยู่ในระดับเดียวกับ Arm Cortex-X2 ซึ่งเป็นการออกแบบจากปี 2021 แกน Firestorm ของ M1 ที่ Apple เปิดตัวในปี 2020 ยังคงมี IPC สูงกว่า 35% แกน P ล่าสุดของ Apple M5 มี IPC สูงกว่าถึง 60% และประสิทธิภาพสัมบูรณ์สูงกว่า 2.7 เท่า
สาเหตุของช่องว่างไม่ได้อยู่ที่การออกแบบ แต่อยู่ที่กระบวนการผลิต Apple และ Qualcomm ใช้ N4, N3P ของ TSMC ซึ่งกระบวนการเหล่านี้มีข้อได้เปรียบโดยพื้นฐานบนเส้นโค้งแรงดันไฟฟ้า-ความถี่: สามารถยัดทรานซิสเตอร์ลงในพื้นที่เท่ากันได้มากกว่า และสามารถทำงานที่ความถี่สูงขึ้นได้ด้วยพลังงานเท่าเดิม ระดับการออกแบบแกนหลักของ Huawei เทียบได้กับรุ่นก่อนหน้าของชั้นนำในอุตสาหกรรม แต่ถูกขังอยู่ในเทคโนโลยีการผลิตที่ล้าหลังอยู่สองรุ่น
เมื่อกระบวนการผลิตเดินหน้าต่อไปไม่ได้ Huawei เตรียม "พับ"
ส่วนที่มีคุณค่าเชิง前瞻มากที่สุดของรายงาน คือกฎการปรับขนาด τ (Tau Scaling) และแผนงาน LogicFolding ที่ Huawei เปิดเผยในการประชุม ISCAS ปี 2026
การปรับขนาดเซมิคอนดักเตอร์แบบดั้งเดิมดำเนินไปบนระนาบสองมิติ: ทำให้ทรานซิสเตอร์เล็กลง ทำให้เส้นโลหะเล็กลง กฎของมัวร์ดำเนินมาหลายสิบปี โดยมีสาระสำคัญคือการทำสิ่งเหล่านี้ ตอนนี้ Huawei เสนอ τ-scaling ซึ่งย้ายเป้าหมายการปรับให้เหมาะสมจากโดเมนเชิงพื้นที่ไปยังโดเมนเชิงเวลา โดยมีแกนหลักคือการลดต้นทุนด้านเวลาในการเคลื่อนย้ายและประมวลผลข้อมูล ซึ่งรวมถึงความหน่วงในการสลับของทรานซิสเตอร์ ความหน่วงในการแพร่กระจายสัญญาณ และความหน่วงระหว่างการคำนวณและการจัดเก็บ
LogicFolding คือการนำทฤษฎีนี้ไปประยุกต์ใช้ในทางวิศวกรรม พูดง่ายๆ ก็คือ การแบ่งโมดูลลอจิกเดียวกันออกเป็นสองชั้น บนและล่าง วางซ้อนกันแบบตัวต่อตัว (face-to-face) และเชื่อมต่อด้วยการเชื่อมประสานแบบไฮบริด (hybrid bonding) ที่มีระยะห่างละเอียดเป็นพิเศษ ข้อดีโดยตรงคือการทำให้เส้นทางสัญญาณที่ยาวที่สุดสั้นลง ในชิปสมัยใหม่ พลังงานและความหน่วงส่วนใหญ่หมดไปกับการขับเคลื่อนสายเชื่อมต่อยาวและบัฟเฟอร์ทวนสัญญาณ เมื่อพับลอจิกในแนวตั้ง เส้นทางวิกฤตจะสั้นลง ความถี่สามารถเพิ่มขึ้นได้ และการใช้พลังงานลดลงได้
Huawei ได้วางแผนงานที่ท้าทาย: ความถี่ของ Big core ใน Kirin 9030 คือ 2.75GHz แต่ในห้องปฏิบัติการสามารถรันชิปตัวอย่างได้ถึง 3.39GHz โดยมีเป้าหมายที่จะถึง 5GHz ภายในปี 2031 และในขณะเดียวกันก็ผลักดันความหนาแน่นที่มีประสิทธิภาพให้ถึง 295 MTr/mm² ผ่านการซ้อน 3 มิติ เพื่อเทียบเคียงกับระดับ 14A ของ TSMC
SemiAnalysis ยังคงระมัดระวังต่อเรื่องนี้ พวกเขาชี้ให้เห็นว่าวิธีการคำนวณความหนาแน่นของ Huawei แตกต่างจากโรงหล่อแบบดั้งเดิม: ความหนาแน่นของการซ้อน 3 มิติคำนวณจากพื้นที่บรรจุภัณฑ์ เมื่อนำลอจิกที่ทำงานได้หลายชั้นมาซ้อนกัน ก็จะได้ตัวเลขที่สูงขึ้นโดยธรรมชาติ หากใช้วิธีการเดียวกันนี้กับ MI450X (ชั้นบนเป็น N2 + ชั้นล่างเป็น N3P) ของ AMD ความหนาแน่นทางทฤษฎีจะสูงถึง 460.2 MTr/mm² ซึ่งสูงกว่าเป้าหมายของ Huawei ในปี 2031 มาก
แต่ทิศทางนั้นสมควรได้รับความสนใจ การที่ Huawei เลือกเส้นทางนี้ โดยพื้นฐานแล้วคือการที่ ภายใต้ข้อจำกัดด้านกระบวนการผลิต บริษัทออกแบบระบบได้เข้ามารับช่วงต่องานของโรงหล่อ V-Cache ของ AMD ทำการซ้อน 3 มิติบนแคช MI350X ของ AMD ย้าย I/O และอินเทอร์คอนเนกต์ไปไว้ที่ชิปด้านล่าง แต่ Huawei จะทำได้彻底กว่า โดยแยกบล็อกลอจิกเดียวกันออกมาและกระจายในแนวตั้ง ซึ่งเป็นความท้าทายทางวิศวกรรมที่ต่างระดับกัน
การควบคุมการส่งออกได้ปรับเปลี่ยนมิติของการแข่งขัน
ข้อสรุปสุดท้ายของ SemiAnalysis ตรงไปตรงมา: การควบคุมการส่งออกไม่ได้หยุดยั้งความก้าวหน้าด้านชิปของจีน แต่ได้เปลี่ยนเส้นทางและต้นทุนของความก้าวหน้านั้น
N+3 ของ SMIC พิสูจน์ให้เห็นว่าสามารถบรรลุความหนาแน่นของลอจิกระดับ N6 ได้โดยไม่ต้องใช้ EUV แต่เส้นทางนี้มีต้นทุนสูงกว่า กระบวนการซับซ้อนกว่า และการควบคุมผลผลิตทำได้ยากกว่า เมื่อก้าวต่อไป ความยากส่วนเพิ่มในแต่ละขั้นตอนจะเพิ่มขึ้น: ต้องใช้หน้ากากมากขึ้น ข้อกำหนดความแม่นยำในการซ้อนทับเข้มงวดขึ้น และเทคนิคการสร้างลวดลายหลายชั้นมีราคาแพงขึ้น ในทางทฤษฎี N+4 สามารถทำได้ถึง 137.8 MTr/mm² (เทียบเคียง N5 ของ TSMC) และ N+5 หากเพิ่มจ่ายไฟด้านหลัง (backside power delivery) ก็อาจเข้าใกล้ HP library ของ Intel 18A ได้ แต่แต่ละขั้นตอนยากขึ้น แพงขึ้น และมีพื้นที่สำหรับความผิดพลาดน้อยลงกว่าขั้นตอนก่อน
ในขณะเดียวกัน กระบวนการผลิต N+2 และ N+3 ของ SMIC กำลังถูกถ่ายโอนไปยัง Hua Hong บริษัทออกแบบชิปอย่าง T-Head ของ Alibaba, Cambricon และอื่นๆ ก็อาจเป็นผู้ได้รับประโยชน์เช่นกัน ความรู้ด้านการผลิตชิปกำลังกระจายจากโรงหล่อแห่งเดียวไปยังระบบนิเวศ ซึ่งทำให้ประสิทธิผลของการคว่ำบาตรที่มุ่งเป้าไปที่บริษัทใดบริษัทหนึ่งเจือจางลงไปอีก
而在ด้านการออกแบบ Huawei และมหาวิทยาลัยปักกิ่งกำลังพัฒนาเครื่องมือ EDA ในประเทศต้นแบบสำหรับ LogicFolding อยู่ ซึ่งไม่ได้หมายถึงการแทนที่ชุดเครื่องมือ完整ของ Synopsys และ Cadence แต่ EDA ในประเทศกำลังพัฒนาไปในทิศทางของ "การปรับให้เหมาะสมร่วมกันระหว่างสถาปัตยกรรม กระบวนการผลิต และการบรรจุ"
รายละเอียดที่น่าสนใจ: STEEL พบในการถอดประกอบว่า DRAM ของ Kirin 9030 Pro มาจาก Samsung (K4L2E165YD, LPDDR5X-9600, โหนดกระบวนการ 1a) ในขณะที่รุ่น Pro Max ขนาด 16GB นั้นใช้การ封装ทั้งของ Samsung และ ChangXin Memory Technologies (CXMT) ชิปของ CXMT มีวันที่ผลิตเป็น封装สัปดาห์ที่ 45 ของปี 2025 โดยมีความหนาแน่นของกระบวนการเทียบเท่าระดับ 1z ในอุตสาหกรรม ซึ่งหมายความว่าหน่วยความจำของจีนเริ่มเข้าสู่ห่วงโซ่อุปทานของ Huawei ในรุ่นเรือธงแล้ว แม้ว่ากระบวนการผลิตจะยังล้าหลัง Samsung และ SK Hynix อยู่หนึ่งถึงสองรุ่น
对于投资者而言,真正值得跟踪的信号在于华为的 3D 堆叠路线能不能在成本可控的前提下,让中国产芯片在手机、AI 推理、网络设备等场景中达到够用的门槛。
一旦够用成立,这条供应链的战略价值就会被重新定价。


