Thứ Ba, 24 tháng 2, 2026

[Bài 1] Công nghệ chiplet: Tổng quan và kiến thức nền tảng dành cho người mới bắt đầu - Kiến trúc đơn khối và kiến trúc chiplet

Trong bối cảnh kiến trúc đơn khối (Monolithic) truyền thống gặp hạn chế về tỷ lệ sản phẩm sản xuất đạt yêu cầu (Yield) khi diện tích die tăng, chi phí sản xuất cao ở các tiến trình tiên tiến, và chi phí R&D không tối ưu, công nghệ Chiplet nổi lên như một giải pháp thay thế hiệu quả trong nhiều năm gần đây. Bằng cách phân chia chức năng SoC thành nhiều die mô-đun (chiplet) riêng biệt và kết nối qua các giao tiếp die-to-die, kiến trúc này cho phép tối ưu hóa chi phí trong nhiều trường hợp, đặc biệt là cho các SoC phức tạp cao. Chuổi bài này cung cấp kiến thức nền tảng về cấu trúc Chiplet, các giao thức kết nối phổ biến và chi tiết quy trình khởi động hệ thống (booting flow) trong thiết kế VLSI hiện đại.

1. Kiến trúc đơn khối và kiến trúc chiplet

Kiến trúc đơn khối (Monolithic) đề cập đến một đế bán dẫn tích hợp, trong đó tất cả các khối chức năng của một hệ thống trên chip (SoC) đều được chế tạo trên một nền silicon liên tục duy nhất. Silicon đơn khối đại diện cho cấu trúc truyền thống đang được áp dụng cho đại đa số các thiết kế chip nhỏ và vừa hiện nay.

Hình 1. Chip SoC đơn khối (monolithic SoC) với duy nhất 1 die trong SoC package

Kiến trúc Chiplet là một phương pháp thiết kế hệ thống, trong đó các chức năng của SoC được phân chia thành nhiều đế (die) mô-đun riêng biệt (gọi là các chiplet). Các chiplet này được tích hợp bên trong một gói duy nhất và kết nối với nhau thông qua các liên kết die-to-die (D2D) để vận hành như một hệ thống thống nhất.
Hình 2. Chiplet Soc với 2 chiplet (2 die) trong SoC package

2. Giới hạn của kiến trúc đơn khối

2.1. Tại sao cần tiếp cận kiến trúc chiplet trong các thiết kế SoC lớn và phức tạp?
Khi thiết kế SoC ngày càng lớn, chi phí và rủi ro củng tăng theo. Thiết kế đơn khối bộc lộ các nhược điểm sau đây:
  1. Yield suy giảm theo sự tăng của diện tích die: xác suất lỗi sản xuất tăng phi tuyến theo diện tích die; chỉ một lỗi sản xuất cũng có thể làm hỏng toàn bộ die.
  2. Chi phí cao vì thiếu sự linh hoạt về côn nghệ sản xuất và khả năng tái sử dụng kém: Toàn bộ digital logic, analog IP, và IO PAD buộc dùng cùng một công nghệ sản xuất, dẫn đến chi phí wafer, mask, nghiên cứu, và phát triển rất cao và không tối ưu công nghệ cho từng phần thiết kế. Tất cả IP bị ràng buộc chặt vào một die đơn khối cụ thể, gây khó khăn cho việc tái sử dụng linh hoạt giữa các sản phẩm hoặc cấu hình SoC khác nhau.
  3. Sự phức tạp của thiết kế vật lý (physical design) tăng đột biến: Giải quyết các vấn đề về định thời (timing), tổng hợp cây clock (CTS), mạng lưới cấp nguồn (PDN) và và đảm bảo tính toàn vẹn tín hiệu và nguồn (SI/PI) trở nên khó khăn khi die lớn và mật độ logic cao.
2.2. Yield suy giảm theo sự tăng của diện tích die

Yield (Tỷ lệ sản phẩm đạt) là tỷ lệ thống kê của các đế bán dẫn (dies) sau khi chế tạo đáp ứng đầy đủ tất cả các yêu cầu về chức năng, thông số kỹ thuật và khả năng sản xuất sau quá trình gia công và kiểm thử; tỉ lệ này được quyết định cơ bản bởi mật độ lỗi (defect density), diện tích đế (die area) và sự biến đổi của quy trình (process variability).

Yield thể hiện sự sụt giảm phi tuyến tính khi diện tích die tăng lên. Ví dụ minh họa dưới đây cho thấy sự sụt giảm Yield trên cùng một diện tích wafer khi kích thước die tăng lên gấp bốn lần:

(a) Yield = 'Số die tốt / Tổng số die' = 2/4 = 50%

(b) Yield = 28/32 = 87,5%"

Hình 3. Yield giảm khi kích thước die tăng. (a) yield là 50% (b) Yield là 87.5% khi kích thước wafer không đổi
2.3. Sự linh hoạt về công nghệ sản xuất (process - tiến trình) và tái sử dụng mức silicon
Kiến trúc Monolithic: Toàn bộ đế (die) phải được chế tạo lại từ đầu khi chuyển sang một tiến trình công nghệ khác.
Kiến trúc Chiplet: Chỉ những đế (chiplet) nào yêu cầu chuyển đổi tiến trình mới cần phải chế tạo lại; các đế còn lại có thể được tái sử dụng mà không cần phải thực hiện lại quy trình chế tạo.
Hình 4. Toàn bộ die phải được thiết kế vật lý và sản xuất lại khi chuyển đổi công nghệ từ 7nm lên 5nm

Hình 5. Chỉ die cần phải nâng cấp (die 0) phải thiết kế vật lý và sản xuất lại với công nghệ mới 5nm, còn die 1 sẽ tái sử dụng (tái sản xuất trên công nghệ cũ 7nm) mà không cần thiết kế vật lý lại.

Trong ví dụ trên đây, chúng ta xem xét kịch bản yêu cầu nâng cấp một thiết kế SoC từ tiến trình 7nm lên 5nm cho các khối CPU, NPU, BUS và DSP.
  • Đối với kiến trúc đơn khối: Ngay cả khi các thành phần như MEM (Memory) hay PCIE không có sự thay đổi về mặt thiết kế (RTL), chúng vẫn buộc phải "cuốn chiếu" nâng cấp theo tiến trình mới. Điều này đồng nghĩa với việc toàn bộ các khối Analog Hard Macro (DRAM PHY, PCIE PHY, IO PAD) và thiết kế vật lý (Physical Design) của Logic Digital phải triển khai lại từ đầu. Hệ quả là chi phí R&D tăng vọt và kéo dài đáng kể thời gian đưa sản phẩm ra thị trường (Time-to-Market).
  • Đối với kiến trúc Chiplet: Nếu các khối chức năng đã được phân tách ngay từ đầu dựa trên lộ trình sản phẩm và phân tích chi phí đóng gói, chúng ta sẽ có lợi thế vượt trội về giảm chi phí R&D và thời gian đưa sản phảm ra thị trường. Cụ thể, chỉ có Die 0 (chứa CPU/NPU/BUS/DSP) cần tái đầu tư R&D cho tiến trình 5nm. Toàn bộ Die 1 được bảo lưu hoàn toàn, giúp cắt giảm tối đa chi phí thiết kế và rủi ro kỹ thuật trong quá trình chuyển đổi công nghệ.
2.4. Độ phức tạp của thiết kế vật lý tăng khi sự phức tạp của SoC đơn khối tăng

Bảng 1. So sánh sự phức tạp giữa chip SoC đơn giản (nhỏ và vừa) và chíp SoC phức tạp

Khía cạnh

SoC đơn giản (ít component)

SoC phức tạp (nhiều component)

Floorplanning (bố trí)

Bố trí tương đối trực quan, ít macro, ít ràng buộc chéo.

Floorplan đa khối, nhiều macro lớn (CPU, GPU, NPU, SRAM), ràng buộc vị trí chặt chẽ.

Routing Congestion (nghẽn định tuyến)

Routing (đi dây) tương đối đều, dễ tránh tắc nghẽn.

Congestion cục bộ nghiêm trọng do bus tín hiệu nhiều bit, mang lưới kết nối trong chip và lưu lượng kết nối các IP cao.

Timing Closure

Ít path dài, dễ đóng timing ở số ít corner.

Path dài xuyên nhiều IP, nhiều clock domain, timing closure phi tuyến.

Clock Tree Synthesis (CTS)

Một hoặc ít clock domain, skew dễ kiểm soát.

Nhiều clock domain (hàng trăm, hàng nghìn), clock gating phức tạp, khó kiểm soát skew.

Power Delivery & Integrity (PDN/PI)

Dòng tiêu thụ thấp, rơi ápnhiễu nhỏ, mạng lưới cấp nguồn đơn giản.

Dòng lớn, hotspot cục bộ, rơi áp, và nhiễu dễ xảy ra.

Signal Integrity (SI)

Ít dây dẫn tốc độ cao, coupling thấp.

Nhiều dây dẫn tốc độ cao song song, nhiễu xuyên kênh (crosstalk) và suy giảm tín hiệu dễ xuất hiện.


Tại sao foorplanning của SoC lớn lại khó hơn? Floorplanning là giai đoạn xác định vị trí tối ưu và phân bổ không gian cho các khối chức năng chính (như CPU, SRAM, NPU,...) trên đế silicon (die). Mục tiêu cốt lõi của bước này là thiết lập một khung sườn vật lý vững chắc, đảm bảo khả năng định tuyến (routability), tối ưu hóa diện tích và kiểm soát các yếu tố về định thời (timing) cũng như phân phối điện năng (power distribution).
Khi SoC ngày càng lớn, số lượng các khối chức năng vật lý tăng lên việc bố trí để thỏa nhiều điều kiện khác nhau như đã nói sẽ trờ nên khó khăn hơn.
Tại sao việc đóng/hội tụ timing (timing closure) của SoC lớn lại khó hơn? Timing Closure (Hội tụ định thời) là trạng thái mà toàn bộ các đường dẫn tín hiệu trong thiết kế đều thỏa mãn các ràng buộc về thời gian (timing constraints). Điều này bao gồm việc đáp ứng các điều kiện về Setup time và Hold time đối với các đường dẫn dữ liệu (Data Path), cũng như Recovery time và Removal time đối với các đường dẫn reset (Reset Path). Trạng thái này phải được đảm bảo duy trì ổn định trên tất cả các kịch bản hoạt động (scenarios) và mọi điều kiện góc kỹ thuật (PVT corners - Process, Voltage, Temperature).
SoC phức tạp sẽ có số lượng miền clock lớn; tần số clock yêu cầu cao; số lượng data path, reset path nhiều; ... sẽ làm cho timing closure khó hơn.
Hình 6. (Hình bên trái) Minh họa floorplanning; (Hình bên phải) Minh họa routing trong đó có thể xuất hiện đường timing path dài (long timing path) gây vi phạm định thời (timing)
Tại sao tắc nghẽn định tuyến lại dễ xuất hiện trong chip SoC lớn? Hiện tượng tắc nghẽn định tuyến (Routing congestion) phát sinh khi nhu cầu về mật độ dây dẫn vượt quá tài nguyên không gian vật lý hiện có trên die.
Khi độ phức tạp của thiết kế tăng lên, số lượng các đường liên kết giữa các thành phần trên chip (on-chip components) phát triển một cách đáng kể, dẫn đến tình trạng tắc nghẽn định tuyến (routing congestion). Sự tắc nghẽn này cần được phân tích và xử lý triệt để ngay từ giai đoạn RTL cho đến suốt quá trình triển khai vật lý (physical implementation).
Hình 7. Minh họa việc thiết kế có số lượng dây kết nối lớn gây hiện tượng routing congestion (tham khảo: https://www.arteris.com/learn/wire-routing-congestion) 

Tại sao tổng hợp cây clock (CTS) khó khăn hơn? CTS (Clock Tree Synthesis - Tổng hợp cây xung nhịp) là quy trình xây dựng mạng lưới phân phối xung nhịp từ nguồn (Clock Source/Root) đến tất cả các điểm cuối (Sinks) như các Flip-flops hoặc các chân xung nhịp của các khối Macros bên trong chip. Mục tiêu cốt lõi của CTS là tối thiểu hóa độ lệch xung nhịp (Clock Skew) và độ trễ chèn (Insertion Delay). Trước khi thực hiện bước CTS, xung nhịp trong thiết kế chỉ được coi là xung nhịp lý tưởng (Ideal Clock) và chưa được lan truyền (Propagated) qua mạng lưới dây dẫn vật lý.
Một thiết kế SoC lớn với số lượng Flip-flop lớn và nhiều miền clock, việc CTS tốt sẽ mất thời gian hơn.
Hình 8. Minh họa tổng hợp cây clock (Clock Tree Synthesis - CTS)

Tại sao thiết lập mạng lưới phân phối nguồn lại khó hơn trong các chip SoC lớn? Mạng lưới phân phối nguồn (Power Delivery Network - PDN) là hệ thống các đường dẫn vật lý (metal grids) và các thành phần liên kết bên trong chip, có nhiệm vụ đảm bảo cung cấp điện áp ổn định và đồng nhất đến mọi khối chức năng. Một PDN tối ưu phải kiểm soát được hiện tượng sụt áp (IR Drop), nhiễu nguồn (Power Noise) trong giới hạn cho phép, và đảm bảo tính toàn vẹn điện năng (Power Integrity - PI) cho toàn bộ hệ thống.
Một thiết kế SoC với nhiều IP analog (hard macro) khác nhau thường yêu cầu nhiều power domain và nhiều vị trí cấp nguồn khác nhau (nhiều chân cấp nguồn hơn).
Hình 9. Các SoC lớn thường yều cầu nhiều power domain

Tại sao việc đảm bảo PI lại khó hơn? Trong ví dụ này, việc bố trí CPU và DSP — hai khối chức năng hoạt động với tần suất cao — nằm sát nhau tại cạnh trên của die đã gây ra sự tập trung công suất và nhiệt năng cục bộ, hình thành các điểm nóng vượt ngưỡng (Thermal Hotspots). Hotspot trong SoC là những vùng có mật độ công suất (Power Density) và nhiệt độ cao bất thường so với khu vực lân cận, phát sinh do hoạt động chuyển mạch với cường độ lớn. Hiện tượng này không chỉ gây ra ứng suất nhiệt mà còn trực tiếp làm suy giảm tính toàn vẹn điện năng (Power Integrity) do sự biến đổi đặc tính dẫn điện theo nhiệt độ.
Để tối ưu hóa, cấu trúc Floorplan cần được điều chỉnh bằng cách giãn cách vật lý giữa CPU và DSP, giúp dàn trải dòng nhiệt và tối ưu hóa khả năng tản nhiệt tự nhiên của die. Bên cạnh đó, các cảm biến nhiệt độ (Thermal Sensors) và cảm biến điện áp (Voltage Monitors) được tích hợp tại các vị trí chiến lược để giám sát trạng thái thời gian thực. Dữ liệu từ hệ thống giám sát này đóng vai trò là thông số đầu vào cho các thuật toán DVFS (Dynamic Voltage and Frequency Scaling), cho phép hệ thống tự động điều chỉnh tần số xung nhịp hoặc mức điện áp nguồn, từ đó ngăn chặn tình trạng quá nhiệt và kiểm soát hiện tượng sụt áp (IR Drop) hiệu quả."
Hình 10. Bên trái: hotspot xảy ra khi hai thành phần hoạt động và tiêu thụ năng lượng chính, CPU và DSP, đặt gần nhau; Bên phải: Hai thành phần hoạt động chính được bố trí cách xa nhau để tránh việc cộng hưởng nhiệt gây hotspot. 

Khi độ phức tạp của SoC tăng cao, việc phân tích tính toàn vẹn tín hiệu (Signal Integrity - SI) trở thành yêu cầu bắt buộc trong quy trình sign-off. Chẳng hạn, nếu không tối ưu hóa vị trí đặt (Placement) của các khối giao tiếp ngoại vi tốc độ cao (như PCIe Gen5/6, DDR5), các đường truyền tín hiệu sẽ bị kéo dài hoặc đi quá gần nhau, làm gia tăng hiện tượng nhiễu xuyên âm (Crosstalk). Điều này không chỉ gây biến dạng dạng sóng mà còn dẫn đến các lỗi về định thời và suy giảm tỷ số tín hiệu trên nhiễu (SNR), gây khó khăn cho việc kiểm soát nhiễu ở giai đoạn định tuyến.

Hình 11. Bên trái: 2 ngoại vi tốc độ cao PCIe bố trí gần nhau dễ gây tình trạng nhiễu (ảnh hưởng) tín hiệu khi cả hai cùng hoạt động truyền tốc độ cao. Bên phải: 2 ngoại vi được bố trí lại khi thiết kế vật lý để đảm bảo SI.

Những phân tích trên đây giúp làm rõ sự gia tăng mức độ khó khăn trong thiết kế vật lý của kiến trúc chip đơn khối khi độ phức tạp của thiết kế tăng lên.
Việc chuyển đổi từ kiến trúc đơn khối (Monolithic) sang phương thức tiếp cận dựa trên Chiplet có thể giúp cắt giảm một số thành phần chi phí nhất định. Tuy nhiên, mô hình này lại làm gia tăng độ phức tạp của hệ thống và các chi phí liên quan đến đóng gói chip (packaging).
Do đó, hiệu quả giảm tổng chi phí thực tế cần phải được đánh giá thông qua một bản phân tích định lượng toàn diện trên toàn bộ chuỗi giá trị, bao gồm các giai đoạn: thiết kế, chế tạo wafer, đóng gói tiên tiến (Advanced Packaging), kiểm thử, tích hợp hệ thống.

Lịch sử cập nhật:
1) 2026.02.22 - Tạo lần đầu - Quan Nguyen

0 bình luận:

Đăng nhận xét