客服熱線：400-650-7658 0316-7678695English 日本語

行業(yè)新聞

3D芯片時代，這個問題要重視

時間: 2022-07-08瀏覽次數(shù)：250

3D芯片時代，這個問題要重視

I.引言

自 1959 年 MOSFET 和 1963 年 CMOS 發(fā)明以來，CMOS 電路成為低功耗電池供電應(yīng)用（如數(shù)字手表和便攜式儀器）的首選技術(shù)。隨后，光刻技術(shù)(lithography scaling) 使CMOS踏入高性能計算的競爭行列中。Dennard 1974年對CMOS 縮放(CMOS scaling)原理的總結(jié)根據(jù)摩爾定律進(jìn)一步為微電子行業(yè)提供了科學(xué)的縮放(scaling)方向。然而，到 2005 年，平面 MOSFET的亞閾值泄漏阻止了 Vth、Vdd 和頻率按比例縮放，這很大程度上打破了Dennard 縮放原理(scaling principle)。雙柵極 (SOI) 和三柵極 (FinFET) 的發(fā)明使通道得到了更好的控制，從而載流子不會逃逸到襯底。環(huán)柵（例如：納米線和納米片）MOSFET 的溝道被柵電極包圍，具有更好的靜電控制，從而減少了泄漏并提高了載流子遷移率。使用多納米片，單位面積內(nèi)的有效寬度W (W_eff) 也得到改善，與 FinFet 器件相比，允許適度的密度縮放。業(yè)界即將對 CMOS 縮放(CMOS scaling)進(jìn)行更多改進(jìn)。ForkFET 在 PMOS 和 NMOS 之間使用了阻擋層，可以讓 PMOS 和 NMOS 彼此靠近放置，從而提高晶體管密度并降低 PMOS 和 NMOS 之間的互連 RC。PMOS 和 NMOS 相互堆疊的互補(bǔ)FET (CFET) 顯著減少了 PMOS 和 NMOS 之間的互連，這是因?yàn)榇怪倍询B上的互連比水平布線短得多。當(dāng)可以更好地解決熱和可測試性挑戰(zhàn)時，未來的技術(shù)進(jìn)步可能允許單片制造更多層的 MOSFET（單片 3D 集成）。

總體趨勢是 CMOS 縮放速度已經(jīng)放緩，根據(jù)IRDS（國際設(shè)備和系統(tǒng)路線圖）預(yù)計將在 2034 年達(dá)到極限。隨著晶體管尺寸越來越小，柵極間距的減小使得源極/漏極更加難以形成良好接觸，從而對良率和性能調(diào)整提出了更多挑戰(zhàn)。對于數(shù)字處理器來說，持續(xù)的器件縮放(device scaling)可能有好處，而對于模擬信號處理單元（例如 IO、無線電或高壓電路）來說，保留在較舊的技術(shù)節(jié)點(diǎn)上更好。這就需要異構(gòu)集成。已經(jīng)表明，芯片分解可能有助于提高性能、外形尺寸、成本和上市時間。在最初成功將 HBM（高帶寬內(nèi)存）堆棧與處理器集成在同一封裝中以滿足 AI/ML 和超級計算中的數(shù)據(jù)密集型工作負(fù)載的需求之后，3D-IC 現(xiàn)在正在形成(taking shape for)主要的高性能計算產(chǎn)品。

在本文中，我們討論了 3D-IC 時代的互連。第二部分回顧了器件縮放(device scaling)尤其是與器件互聯(lián)相關(guān)的趨勢和限制。第三部分討論了各種應(yīng)用的芯片到芯片互連，并提供了水平芯片到芯片連接和垂直芯片到芯片堆疊的設(shè)計解決方案。第 IV 節(jié)側(cè)重于特別是與抖動、功率和通道優(yōu)化有關(guān)的互連性能分析。最后在第五節(jié)，討論了一些未來趨勢。

II. 器件縮放趨勢和 3D-IC

CMOS 光刻現(xiàn)在處于亞 10nm級(sub 10nm space)，發(fā)展向 3nm 及以下?？傮w趨勢是接觸多晶硅間距 (CPP)、物理柵極長度 (Lg)、鰭片間距、最小金屬間距 (MP) 和接觸 CD（臨界尺寸）繼續(xù)縮小，但速度較慢。一個限制因素是源極/漏極間距。如圖 1 所示，由于finFET 或納米片 3D 結(jié)構(gòu) 的接觸面積/間距減小，MOSFET 的源極/漏極的外部電阻以及柵極和源極/漏極之間的側(cè)壁耦合電容和邊緣電容會隨著特征尺寸的縮小而降低，導(dǎo)致帶寬和功率的改進(jìn)微不足道。對于模擬應(yīng)用，過大的柵極、源極和漏極電阻會降低 gm、ft 和 fmax。由于米勒效應(yīng)，柵極/漏極之間的側(cè)壁電容效應(yīng)更為明顯，它會影響高速電路的上升/下降時間，從而對功耗和抖動產(chǎn)生不利影響?？紤]到邏輯設(shè)計的密度縮放和高速電路的性能要求，可以提供多個間距，寬間距器件適用于更低的寄生 RC從而使ft更高。還進(jìn)行了器件和技術(shù)的協(xié)同優(yōu)化，以通過金屬柵極的雙帶來降低柵極電阻。先進(jìn)節(jié)點(diǎn)后道工藝(back end of line，BEOL)的電阻效應(yīng)并沒有變得更好。為了解決因積極縮放(aggressive scaling)而導(dǎo)致生產(chǎn)線中端(MEOL)和后道工藝(BEOL)互連電阻率和可靠性的關(guān)鍵和緊急問題，該行業(yè)加快步伐在新材料和新工藝方面尋求突破。

圖1.MOSFET中的寄生R&C

簡而言之，器件縮放會產(chǎn)生成本，尤其是在模擬、高速 IO 或 RF 電路方面。設(shè)計成本和制造成本使做單片 SoC 的效率降低。通過多個小芯片的封裝集成來進(jìn)行芯片分解是自然路徑(the natural path）。

由于3D-IC的優(yōu)勢，主要處理器設(shè)計供應(yīng)商現(xiàn)在正朝著 3D 芯片集成的方向發(fā)展。3D-IC采用水平連接和垂直堆疊的形式，通過不同工藝和封裝技術(shù)在較小芯片上制造的計算核心、加速器、內(nèi)存、緩存、IO、電源管理功能(function)可以像樂高積木一樣拼湊在一起。每個功能都針對功率、性能和面積進(jìn)行了優(yōu)化。我們即將迎來標(biāo)準(zhǔn)化小芯片接口和 3D 集成流程(flow)。短期內(nèi)，專有解決方案仍然流行。

可以預(yù)見，不同于MOSFET的新技術(shù)將逐漸出現(xiàn)。例如，隧道 FET (TFET) 或電阻式 RAM (RRAM) 等新技術(shù)可能共存或替代現(xiàn)有 DRAM，以降低功耗和泄漏。技術(shù)遷移會采用進(jìn)化路徑(evolutionary path)演變成另一種功率、熱、帶寬或縮放效率更高的技術(shù)，而不會突然脫離歷史上非常成功的 MOSFET 技術(shù)。3D-IC加速了RRAM、TFET、碳納米管、光子學(xué)等新技術(shù)的采用。

3D-IC 集成的主要優(yōu)勢是更好的互連能效，減少訪問延遲。3D堆疊允許顯著減少塊間布線距離。在計算核心附近放置更多內(nèi)存可以讓 CPU 提高性能，因?yàn)榭偛季€長度減少了，內(nèi)存訪問帶寬和延遲也因此大大提高。例如，片外存儲器訪問能量約為 10+pJ/bit，訪問延遲約為 100ns。由于更高的封裝內(nèi)(in-package)數(shù)據(jù)帶寬，延遲降低了。

3D 集成技術(shù)中有一些成分(ingredients) 可以在各種應(yīng)用中排列形成各種各樣的 2.5D 或 3D 結(jié)構(gòu)。從根本上說，這些技術(shù)變體可以分為兩類：一是垂直連接，例如晶片上芯片、晶片上晶片，使用 uBump、鍵合或絕緣/硅通孔 (TIV/TSV) 將兩個不同的芯片連接在一起。水平連接依靠通過基板或中介層的布線來連接兩個芯片。不同的產(chǎn)品采用有機(jī)中介層、硅中介層、硅橋、RDL（重新布線層）over Molding或襯底路線等各種布線介質(zhì)(wiring media)。關(guān)鍵設(shè)計考慮因素是密度、損耗、串?dāng)_、成本和可制造性。中介層介電常數(shù)、凸塊間距/尺寸、線寬/間距和 TIV/TSV 直徑/高度會影響互連密度和電氣性能。有機(jī)內(nèi)插器（organic interposer）可實(shí)現(xiàn)更高的帶寬。有源內(nèi)插器（active interposer）可能會為性能提供額外的好處。

III.低功耗芯片到芯片互連的設(shè)計

在這里，我們專注于芯片到芯片 (D2D) 互連技術(shù)，以應(yīng)對芯片間通信的挑戰(zhàn)。D2D 互連設(shè)計有 3 個主要的 FOM（品質(zhì)因數(shù)）：線（或面積）帶寬密度、能源效率和延遲。對于橫向 D2D 連接電路，目前線帶寬密度(shoreline bandwidth density)>1Tbps/mm，并且還在不斷增加。帶寬密度最終受限于芯片幾何形狀的物理約束（例如線寬度和凸塊間距），以及通道插入損耗和串?dāng)_帶來的性能約束。在水平情況下，我們的目標(biāo)是 1.2-2.0 毫米的通道范圍。更長的覆蓋范圍是可能的（例如：更低的數(shù)據(jù)速率、通道均衡、有源內(nèi)插器(active interposer)或錯誤檢測和糾正），但代價是更低的帶寬密度、更長的處理延遲或更高的功率。對于垂直 D2D 連接電路，F(xiàn)2F 互連的 D2D 互連長度幾乎可以忽略不計，而 F2B 互連的 D2D 互連長度則低于 100um。下面我們展示了針對水平集成和垂直集成調(diào)整的兩個 D2D 接口的設(shè)計，同時考慮了上述三個 D2D 互連 FOM。

水平 D2D 互連：圖 2（左）是并行 PHY 接口的高級電路架構(gòu)，在 TSMC 的 N7/N5/N3 工藝中實(shí)現(xiàn)了轉(zhuǎn)發(fā)時鐘，作為支持水平 D2D 連接的基礎(chǔ) IP。該設(shè)計以前是通過N7的測試芯片實(shí)現(xiàn)的。該系統(tǒng)已經(jīng)過重新架構(gòu)，以提高客戶的能源效率和線帶寬密度(shoreline bandwidth density)。硅中介層(silicon interposer)上支持的最大通道長度可達(dá) 2mm?；締卧Q為通道，由1個公共通道和4個子通道組成。公共通道包括共享功能，例如時鐘生成、參考生成和驅(qū)動器含義校準(zhǔn)(driver implication calibration)。每個子通道有 40 個 Tx 通道(lane)和 40 個 Rx 通道，以及一個時鐘單元。PHY 支持 2.8-8Gbps 的數(shù)據(jù)速率。這使得每個通道每個方向的最大總數(shù)據(jù)帶寬為 1280 Gbps。每個子通道中的冗余有兩個額外的通道(lane)。如果在 Tx 和 Rx 鏈路對之間的任何地方發(fā)生制造缺陷，則可以激活冗余通道來修復(fù)缺陷。為避免不必要的開銷，每 20 個通道中只有 1 個缺陷是可修復(fù)的。可以禁用不可修復(fù)的子通道或通道，但同時要將部分降級支持更少的數(shù)據(jù)帶寬。時鐘單元在一個子通道中的 40 個 Rx 和 40 個 Tx 數(shù)據(jù)通道之間共享。在時鐘單元中，在 Tx 時鐘路徑和 Rx 時鐘路徑中分別有一個 DCC（占空比校正）電路跟隨一個去偏移環(huán)路(deskew loop)。發(fā)送去偏移環(huán)路(transmit deskew loop)用于將 SoC 時鐘域與PHY 時鐘域一致，接收去偏移環(huán)路用于將采樣時鐘與接收數(shù)據(jù)眼圖中心一致。圖 2（右）是兩個小芯片之間 D2D 接口的物理實(shí)現(xiàn)，有 3 種可能的配置（4+1、2+1 和 1+1）。首選使用情況是 4+1（4 個子通道和 1 個公共通道），這是最節(jié)能的，但也支持 2+1 和 1+1 以滿足對數(shù)據(jù)帶寬需求不太高的應(yīng)用。凸塊間距為 40 微米。本質(zhì)上，每個 Tx 或 Rx 電路可以占據(jù)一個凸塊下方的部分區(qū)域。凸塊下方的其余區(qū)域用于時鐘分配或去耦電容。PHY 的電源從兩側(cè)（圖 2 右圖所示的頂部和底部）提供。用來支持晶圓級 KGD（已知良好芯片）測試期間探針卡(probe card)的探針墊(probe-pad)更大。每列有 12 個信號凸塊，每個凸塊運(yùn)行速度高達(dá) 8Gbps。除去用于邊帶握手(side bands handshaking)、通道冗余的一些凸起，每個通道實(shí)現(xiàn)的線帶寬密度(shoreline bandwidth density)為 1.78Tbps/mm，能效為 0.36pJ/bit，面積為 1440x1010um2。

圖 2. 水平 D2D 互連

（左：電路架構(gòu)，右：通道平面圖）

垂直 D2D 互連：各種 3D 芯片拓?fù)涫强赡艿?。圖3顯示了先進(jìn)3D 集成中的多層芯片堆疊場景。外形尺寸（布線長度、鍵合間距和 TSV 直徑）變得越來越緊湊和小。本設(shè)計中貼片間距為9um。由于減少了 D2D 互連長度 (<100um)，與水平 D2D 互連相比，通道缺陷更少。每個通道的數(shù)據(jù)速率增加到 16Gbps。圖 4（左）顯示了 PHY 的架構(gòu)圖。與水平 D2D 互連不同，時鐘單元現(xiàn)在跨 80 個數(shù)據(jù)通道共享，公共通道(lane)由兩個通道(channel)共享。這有效地減少了來自 PLL 和時鐘單元的電源開銷。每個通道每個方向的總最大數(shù)據(jù)帶寬保持為 1280Gbps。由于 PHY 現(xiàn)在受到電路限制（在這種垂直情況下，bond 面積為 81um2，而在水平情況下 ubump 面積為 1600um2），PHY 的平面圖更加緊湊，如圖 4（右）所示，每個 Tx/Rx 通道占用 6 個鍵 (6*81um2) 的面積。總體而言，實(shí)現(xiàn)的面積帶寬密度為 17.9Tbps/mm2，能效為 0.3pJ/bit，每個通道的面積僅為 378x378um2（不包括 PLL）。

圖 3. 垂直芯片堆疊

圖 4. 垂直芯片到芯片互連

（左：電路架構(gòu)，右：通道平面圖）

IV.電路設(shè)計和性能優(yōu)化

圖 5 是 Rx、Tx電路和 Rx 參考生成電路。Rx 使用基于傳統(tǒng)感應(yīng)放大器的觸發(fā)器進(jìn)行數(shù)據(jù)采集，參考電壓可通過 7 位電流 DAC 進(jìn)行調(diào)節(jié)。Tx 驅(qū)動器是低壓擺幅 NMOS 驅(qū)動器，VDDQ 低至 0.3Volt，以降低驅(qū)動器功率和串?dāng)_。

圖 5. Rx 和 Tx 的電路實(shí)現(xiàn)

圖 6 顯示了去偏移環(huán)路(deskew loop)，它由一個用于 8 相時鐘生成的 DLL（延遲鎖定環(huán)路）和一個用于時鐘相位調(diào)整的 PI（相位內(nèi)插器）組成。DLL 從用于 Tx 的 ADPLL 獲取其輸入時鐘，并從 Rx_DQS(來自其他芯片的轉(zhuǎn)發(fā)時鐘)獲取輸入時鐘，。來自 DLL 的 8 相時鐘饋入 CMOS PI。PI 時鐘分配給 Tx（或 Rx）的時鐘樹，時鐘樹的端點(diǎn)也反饋到 PI 控制回路中的 PD，強(qiáng)制時鐘端點(diǎn)與時鐘 Φx 相位對齊。發(fā)送去偏移 DLL 的 Φx 來自 SoC 時鐘域，它可能來自 PHY 中的 ADPLL 或來自 SoC 中的不同 PLL。接收去偏斜環(huán)路的 Φx 來自 8 相時鐘發(fā)生器的 Φ2，以創(chuàng)建與 Rx_DQS 的 90 度相移，從而允許接收時鐘與 Rx 數(shù)據(jù)眼圖中心對齊。PI 和 DLL 環(huán)路濾波器以數(shù)字方式實(shí)現(xiàn)。

圖 6. 去偏移環(huán)路(Deskew Loop)

具有延遲 T（T 是 DLL 輸入時鐘周期時間）的延遲元件的傳遞函數(shù)可以表示為 exp(-Ts)。圖 7 (a) 是一個線性化的 DLL，其中明確顯示了延遲元件。從噪聲傳輸?shù)慕嵌葋砜矗珼LL 是輸入時鐘噪聲的全通濾波器，在 DLL 帶寬附近有輕微的抖動放大。在圖 7 (b) 中，我們提供了一個更詳細(xì)的 8 相 DLL 模型，其中延遲元件及其控制增益級分為 8 段。這更準(zhǔn)確地建模了整體抖動傳遞函數(shù)。圖 7 (c) 是 PI 控制回路。可以相應(yīng)地分析整體抖動傳遞函數(shù)。圖 8（左）顯示了 8 個輸出相位vs DLL 輸入相位的抖動傳遞函數(shù)。圖 8（右）顯示了 DLL + PI 傳遞函數(shù)的整體抖動傳遞，取決于所選的 DLL 相位（Φ1...Φ8）。很明顯，去偏移環(huán)路會放大抖動，從而導(dǎo)致轉(zhuǎn)發(fā)時鐘系統(tǒng)中的抖動跟蹤不完整。理想情況下，如果我們忽略延遲元素（即 exp(-Ts) = 1），則去偏斜環(huán)路是一個全通濾波器。因此，到去偏移環(huán)路輸入的轉(zhuǎn)發(fā)時鐘抖動（包括隨機(jī)抖動和電源抖動）將完全由數(shù)據(jù)接收器端的數(shù)據(jù)路徑上的抖動跟蹤，正如轉(zhuǎn)發(fā)時鐘架構(gòu)所期望的那樣。請注意，DLL 和 PI 本身也會產(chǎn)生噪聲，但噪聲可以忽略不計，因?yàn)榉聪嗥骶彌_區(qū)的深度僅為約 10 個反相器深度。DLL 延遲線的電源噪聲由 DLL 高通，由 PI 環(huán)路低通。如果 DLL 和 PI 環(huán)路之間存在帶寬失準(zhǔn)，則 DLL 延遲線上的一些電源噪聲頻譜可能會泄漏到 PI 輸出。PI 的電源噪聲通過高通到輸出端。抖動影響是相似的?；谏鲜龇治?，時鐘抖動、PVT 偏移和電源下降將主要由去偏移環(huán)路跟蹤。殘余抖動，包括抖動放大部分、DLL 和 PI 自身產(chǎn)生的 Dj 和 Rj，以及時鐘和數(shù)據(jù)路徑不匹配導(dǎo)致的 Dj，會侵蝕眼圖裕度，是系統(tǒng)預(yù)算的一部分，通過行為仿真建模。

圖 7. 線性模型 (a) 傳統(tǒng) DLL (b) 具有延遲元件的 8 相 DLL 模型 (c) PI 環(huán)路線性模型

圖 8. 去偏移環(huán)路的抖動傳輸（左：從 DLL 時鐘輸入到 8 相輸出的抖動，右：整體去偏移環(huán)路抖動傳輸）

電源分配網(wǎng)絡(luò)對電源完整性很重要。必須盡量減少電路板、基板、中介層和芯片上電源網(wǎng)絡(luò)的 IR 壓降。在上電/斷電和電源管理期間，板載、封裝、插入器上(on-interposer)和/或片上去耦電容是抑制電壓紋波所必需的。圖 9 顯示了水平裸片到裸片互連的供電網(wǎng)絡(luò)性能，具有各種去耦電容選項(xiàng)：無去耦電容、帶有 TDC（頂部裸片電容）、eDTC（嵌入式深溝槽電容器）或 TDC 和 eDTC 的組合?；旧?，包括片上 MOSCAP 和 MOM（金屬氧化物金屬）電容的 TDC 對高頻噪聲最有效。另一方面，eDTC 的電容密度大約比 MOM（金屬氧化物金屬）電容高 30 倍，但由于更高的 ESR（有效串聯(lián)電阻），可能不具有良好的高頻特性。為了實(shí)現(xiàn) 20mVpp 的目標(biāo)電壓噪聲，eDTC 在此特定設(shè)計中效率最高。這讓使用更少的片上decap來縮小 PHY面積成為可能。值得注意的是，如果使用的片上去耦電容不足，則通過片上 P/G 網(wǎng)絡(luò)的動態(tài) IR 壓降可能會加劇串?dāng)_。圖中未顯示的 MIM（金屬絕緣體金屬）也是不錯的decap選擇。其電容密度是 MOM 電容的 3 倍至 10 倍，ESR 位于 TDC 和 eDTC 之間。

圖 9. 不同去耦電容的功率傳輸特性和電源噪聲

通道優(yōu)化是 3D-IC DTCO（設(shè)計和技術(shù)協(xié)同優(yōu)化）的一部分。用于水平 D2D 互連的封裝（設(shè)計 1 圖 10）具有高達(dá) 11mVrms ICN（集成串?dāng)_噪聲），F(xiàn)EXT/NEXT 為 -27dB，盡管中介層中有電源/接地屏蔽，如剖面圖所示圖 10。這不是 8Gbps 數(shù)據(jù)速率的問題。然而，為了將線帶寬密度(shoreline bandwidth density)提高到 16Gbps 或 32Gbps（眼高和眼寬更加壓縮），需要改善串?dāng)_噪聲。圖 11 顯示了 Design2。添加電源/接地屏蔽凸塊可將串?dāng)_改善 8dB 以上。隨著我們增加每通道數(shù)據(jù)速率，線帶寬密度(shoreline bandwidth density)將增加，我們能夠在 28Gbps 通道速率下實(shí)現(xiàn) 7Tbps/mm 的峰值帶寬密度（圖 12）。然而，由于插入損耗和串?dāng)_惡化，高通道速率 (32Gbps) 下的帶寬密度變得更差。在更高的數(shù)據(jù)速率下，我們必須減少通道(lane)深度，這會降低線吞吐量(shoreline throughput)。

圖 10. D2D 互連串?dāng)_減少（凸塊頂視圖和中介層剖面圖）

圖 11. 串?dāng)_和插入損耗

圖 12.線吞吐量(Shoreline throughput)

由于間距?。ㄋ交ミB為 40um，垂直互連為 9um），因此無法直接探測芯片到芯片互連。內(nèi)置自檢電路是檢查電路質(zhì)量的必備工具，包括良率篩選和運(yùn)行裕度。圖 13 顯示了 8Gbps 互連的基于誤碼率的眼圖掃描。在與其他小芯片集成之前用于篩選 KGD（已知良好芯片）的晶圓級測試，以及用于篩選 KGS（已知良好系統(tǒng)）的封裝部件測試是用于硅后驗(yàn)證的 DFT 基礎(chǔ)設(shè)施的一部分。來自 KGD/GDS 的有缺陷的零件通過前面提到的冗余通道進(jìn)行修復(fù)。

圖 13.片內(nèi)眼裕量測試(On die eye margin test)（在 VDD=0.75 和 VDDQ=0.3 時測量）

V.討論與結(jié)論

圖14是水平互連和垂直互連的芯片顯微圖。8Gbps 版本是獨(dú)立 IP 驗(yàn)證工具中具有生產(chǎn)價值的設(shè)計（相對于其中的測試芯片），主要關(guān)注電源和信號完整性以及通道設(shè)計協(xié)同優(yōu)化。垂直 D2D 互連設(shè)計用于復(fù)雜的 3D 堆疊，用于 3D 封裝和工藝 DTCO。

圖 14. 芯片到芯片互連的顯微照片

（左：水平，右：垂直）

圖 15 是上述 8Gbps 水平 D2D 互連的晶圓級 KGD 測試的電壓和頻率 schmoo 圖。最初，需要將 Vcc_mim 提高到 0.82Volt 才能無錯誤。這是由探針卡針上的電源下降和 IR 下降以及內(nèi)部電源下降（僅影響測試邏輯）造成的電壓紋波的根本原因。當(dāng)數(shù)據(jù)傳輸活動被順序觸發(fā)時，Vcc_mim 降低到 0.7V。通過調(diào)整采樣時鐘位置，可以在 Vcc_min 為 0.64V時進(jìn)一步提高裕量。實(shí)驗(yàn)室分析表明，探針的 IR 壓降會消耗 30mV 的電壓裕度。對 16Gbps 垂直 D2D 互連進(jìn)行了類似的裕量測試（圖 16）。

圖 15. 電壓和頻率 Schmoo 圖 (8Gbps)

圖 16. 電壓和頻率 Schmoo 圖 (16Gbps)

如果 PDN 網(wǎng)絡(luò)不健壯(robust)，供應(yīng)下降可能是一個嚴(yán)重的性能問題，如先前 shmoo 圖中的邊際損失所示。圖 17 顯示了主電壓域上的測量電流逐漸上升并穩(wěn)定地達(dá)到穩(wěn)定狀態(tài)，沒有明顯的擾動。

圖 17. 通道交錯通過順序激活數(shù)據(jù)通道來減少電壓紋波

在我們的實(shí)現(xiàn)中，我們對發(fā)送數(shù)據(jù)接口使用去偏移循環(huán)來避免額外的 Tx FIFO 延遲。我們能夠?qū)崿F(xiàn) 4ns 的總鏈路延遲。除非我們同步兩個互連小芯片的時鐘域，否則我們無法避免 Rx FIFO。其他類型的時鐘架構(gòu)可用于最小化時鐘/數(shù)據(jù)路徑失配，同時減少偏斜和抖動影響。

如上所述，垂直芯片到芯片互連不受凸塊限制，不同于水平芯片到芯片互連。隨著晶圓鍵合技術(shù)向更緊密的鍵合間距發(fā)展，更簡單的互連拓?fù)淇赡鼙鹊?III 節(jié)中介紹的架構(gòu)更加節(jié)能和具有更低延遲。通過更緊密的鍵合間距和更小的鍵合電容，每條通道(lane)的數(shù)據(jù)速率可以降低到 2Gbps 或更低，從而允許對芯片到芯片交叉電路使用簡單的反相器緩沖器，而時鐘域交叉則使用常規(guī)觸發(fā)器?？梢韵〞r鐘單元和去偏移環(huán)路在內(nèi)的所有開銷。仍然需要降低額定值的 ESD 結(jié)構(gòu)。、盡管每條通道的數(shù)據(jù)速率較低，但由于更高的鍵密度，可以實(shí)現(xiàn)更高的面積帶寬密度和更好的能源效率。在適當(dāng)?shù)臅r序預(yù)算和跨芯片時序仿真的幫助下，整個 PHY 接口可以由 CAD 工具自動處理。圖 18 顯示了未來 3DIC 互連的前景。使用的品質(zhì)因數(shù)是帶寬/能量效率比。串行 IO 將覆蓋 2.5D 互連，通道可達(dá)約 2mm。當(dāng)凸塊間距約為 25um 時，串行 IO 有利于垂直芯片堆疊方案。通過減小間距和通道范圍 (~100um)，數(shù)字 Lite-IO（即 CMOS 反相器）實(shí)現(xiàn)了 100 倍的帶寬/能效比。

圖 18. 3DIC 互連的前景

總之，我們提出了 3DIC 時代的設(shè)計挑戰(zhàn)。CMOS 縮放正在接近其物理極限。3D-IC 是一種使計算系統(tǒng)能夠分解為不同技術(shù)節(jié)點(diǎn)中的許多小芯片的使能技術(shù)，并且由于減少了互連距離和增加了互連帶寬，還提供了更好的功率、性能、面積和成本方面的好處。我們展示了兩種用于水平和垂直 D2D 集成的互連技術(shù)，具有世界一流的能效和帶寬密度。我們展示了水平 D2D 互連的峰值帶寬密度可以達(dá)到 7Tbps/mm。垂直 D2D 互連的帶寬密度將隨著鍵距的縮小而繼續(xù)增長。

與現(xiàn)有技術(shù)狀態(tài)的比較如表 1 所示。

表1. 性能比較

聲明：本文版權(quán)歸原作者所有，轉(zhuǎn)發(fā)僅為更大范圍傳播，若有異議請聯(lián)系我們修改或刪除：zhangkai@cgbtek.com

關(guān)于我們公司簡介企業(yè)文化發(fā)展歷程品質(zhì)保證成功案例

產(chǎn)品中心槽式濕法制程設(shè)備單片類濕法制程設(shè)備輔助設(shè)備工程技術(shù)服務(wù)周邊銷售全自動晶圓倒角機(jī)

新聞動態(tài)公司動態(tài)行業(yè)新聞

人力資源在線招聘

3D芯片時代，這個問題要重視

3D芯片時代，這個問題要重視

3D芯片時代，這個問題要重視

3D芯片時代，這個問題要重視