I.引言
自 1959 年 MOSFET 和 1963 年 CMOS 發(fā)明以來,CMOS 電路成為低功耗電池供電應(yīng)用(如數(shù)字手表和便攜式儀器)的首選技術(shù)。隨后,光刻技術(shù)(lithography scaling) 使CMOS踏入高性能計算的競爭行列中。Dennard 1974年對CMOS 縮放(CMOS scaling)原理的總結(jié)根據(jù)摩爾定律進(jìn)一步為微電子行業(yè)提供了科學(xué)的縮放(scaling)方向。然而,到 2005 年,平面 MOSFET的亞閾值泄漏阻止了 Vth、Vdd 和頻率按比例縮放,這很大程度上打破了Dennard 縮放原理(scaling principle)。雙柵極 (SOI) 和三柵極 (FinFET) 的發(fā)明使通道得到了更好的控制,從而載流子不會逃逸到襯底。環(huán)柵(例如:納米線和納米片)MOSFET 的溝道被柵電極包圍,具有更好的靜電控制,從而減少了泄漏并提高了載流子遷移率。使用多納米片,單位面積內(nèi)的有效寬度W (W_eff) 也得到改善,與 FinFet 器件相比,允許適度的密度縮放。業(yè)界即將對 CMOS 縮放(CMOS scaling)進(jìn)行更多改進(jìn)。ForkFET 在 PMOS 和 NMOS 之間使用了阻擋層,可以讓 PMOS 和 NMOS 彼此靠近放置,從而提高晶體管密度并降低 PMOS 和 NMOS 之間的互連 RC。PMOS 和 NMOS 相互堆疊的互補(bǔ)FET (CFET) 顯著減少了 PMOS 和 NMOS 之間的互連,這是因?yàn)榇怪倍询B上的互連比水平布線短得多。當(dāng)可以更好地解決熱和可測試性挑戰(zhàn)時,未來的技術(shù)進(jìn)步可能允許單片制造更多層的 MOSFET(單片 3D 集成)。 總體趨勢是 CMOS 縮放速度已經(jīng)放緩,根據(jù)IRDS(國際設(shè)備和系統(tǒng)路線圖)預(yù)計將在 2034 年達(dá)到極限。隨著晶體管尺寸越來越小,柵極間距的減小使得源極/漏極更加難以形成良好接觸,從而對良率和性能調(diào)整提出了更多挑戰(zhàn)。對于數(shù)字處理器來說,持續(xù)的器件縮放(device scaling)可能有好處,而對于模擬信號處理單元(例如 IO、無線電或高壓電路)來說,保留在較舊的技術(shù)節(jié)點(diǎn)上更好。這就需要異構(gòu)集成。已經(jīng)表明,芯片分解可能有助于提高性能、外形尺寸、成本和上市時間。在最初成功將 HBM(高帶寬內(nèi)存)堆棧與處理器集成在同一封裝中以滿足 AI/ML 和超級計算中的數(shù)據(jù)密集型工作負(fù)載的需求之后,3D-IC 現(xiàn)在正在形成(taking shape for)主要的高性能計算產(chǎn)品。 在本文中,我們討論了 3D-IC 時代的互連。第二部分回顧了器件縮放(device scaling)尤其是與器件互聯(lián)相關(guān)的趨勢和限制。第三部分討論了各種應(yīng)用的芯片到芯片互連,并提供了水平芯片到芯片連接和垂直芯片到芯片堆疊的設(shè)計解決方案。第 IV 節(jié)側(cè)重于特別是與抖動、功率和通道優(yōu)化有關(guān)的互連性能分析。最后在第五節(jié),討論了一些未來趨勢。 II. 器件縮放趨勢和 3D-IC
CMOS 光刻現(xiàn)在處于亞 10nm級(sub 10nm space),發(fā)展向 3nm 及以下??傮w趨勢是接觸多晶硅間距 (CPP)、物理柵極長度 (Lg)、鰭片間距、最小金屬間距 (MP) 和接觸 CD(臨界尺寸)繼續(xù)縮小,但速度較慢。一個限制因素是源極/漏極間距。如圖 1 所示,由于finFET 或納米片 3D 結(jié)構(gòu) 的接觸面積/間距減小,MOSFET 的源極/漏極的外部電阻以及柵極和源極/漏極之間的側(cè)壁耦合電容和邊緣電容會隨著特征尺寸的縮小而降低,導(dǎo)致帶寬和功率的改進(jìn)微不足道。對于模擬應(yīng)用,過大的柵極、源極和漏極電阻會降低 gm、ft 和 fmax。由于米勒效應(yīng),柵極/漏極之間的側(cè)壁電容效應(yīng)更為明顯,它會影響高速電路的上升/下降時間,從而對功耗和抖動產(chǎn)生不利影響??紤]到邏輯設(shè)計的密度縮放和高速電路的性能要求,可以提供多個間距,寬間距器件適用于更低的寄生 RC從而使ft更高。還進(jìn)行了器件和技術(shù)的協(xié)同優(yōu)化,以通過金屬柵極的雙帶來降低柵極電阻。先進(jìn)節(jié)點(diǎn)后道工藝(back end of line,BEOL)的電阻效應(yīng)并沒有變得更好。為了解決因積極縮放(aggressive scaling)而導(dǎo)致生產(chǎn)線中端(MEOL)和后道工藝(BEOL)互連電阻率和可靠性的關(guān)鍵和緊急問題,該行業(yè)加快步伐在新材料和新工藝方面尋求突破。
圖1.MOSFET中的寄生R&C 簡而言之,器件縮放會產(chǎn)生成本,尤其是在模擬、高速 IO 或 RF 電路方面。設(shè)計成本和制造成本使做單片 SoC 的效率降低。通過多個小芯片的封裝集成來進(jìn)行芯片分解是自然路徑(the natural path)。 由于3D-IC的優(yōu)勢,主要處理器設(shè)計供應(yīng)商現(xiàn)在正朝著 3D 芯片集成的方向發(fā)展。3D-IC采用水平連接和垂直堆疊的形式,通過不同工藝和封裝技術(shù)在較小芯片上制造的計算核心、加速器、內(nèi)存、緩存、IO、電源管理功能(function)可以像樂高積木一樣拼湊在一起。每個功能都針對功率、性能和面積進(jìn)行了優(yōu)化。我們即將迎來標(biāo)準(zhǔn)化小芯片接口和 3D 集成流程(flow)。短期內(nèi),專有解決方案仍然流行。 可以預(yù)見,不同于MOSFET的新技術(shù)將逐漸出現(xiàn)。例如,隧道 FET (TFET) 或電阻式 RAM (RRAM) 等新技術(shù)可能共存或替代現(xiàn)有 DRAM,以降低功耗和泄漏。技術(shù)遷移會采用進(jìn)化路徑(evolutionary path)演變成另一種功率、熱、帶寬或縮放效率更高的技術(shù),而不會突然脫離歷史上非常成功的 MOSFET 技術(shù)。3D-IC加速了RRAM、TFET、碳納米管、光子學(xué)等新技術(shù)的采用。 3D-IC 集成的主要優(yōu)勢是更好的互連能效,減少訪問延遲。3D堆疊允許顯著減少塊間布線距離。在計算核心附近放置更多內(nèi)存可以讓 CPU 提高性能,因?yàn)榭偛季€長度減少了,內(nèi)存訪問帶寬和延遲也因此大大提高。例如,片外存儲器訪問能量約為 10+pJ/bit,訪問延遲約為 100ns。由于更高的封裝內(nèi)(in-package)數(shù)據(jù)帶寬,延遲降低了。 3D 集成技術(shù)中有一些成分(ingredients) 可以在各種應(yīng)用中排列形成各種各樣的 2.5D 或 3D 結(jié)構(gòu)。從根本上說,這些技術(shù)變體可以分為兩類:一是垂直連接,例如晶片上芯片、晶片上晶片,使用 uBump、鍵合或絕緣/硅通孔 (TIV/TSV) 將兩個不同的芯片連接在一起。水平連接依靠通過基板或中介層的布線來連接兩個芯片。不同的產(chǎn)品采用有機(jī)中介層、硅中介層、硅橋、RDL(重新布線層)over Molding或襯底路線等各種布線介質(zhì)(wiring media)。關(guān)鍵設(shè)計考慮因素是密度、損耗、串?dāng)_、成本和可制造性。中介層介電常數(shù)、凸塊間距/尺寸、線寬/間距和 TIV/TSV 直徑/高度會影響互連密度和電氣性能。有機(jī)內(nèi)插器(organic interposer)可實(shí)現(xiàn)更高的帶寬。有源內(nèi)插器(active interposer)可能會為性能提供額外的好處。 III.低功耗芯片到芯片互連的設(shè)計
在這里,我們專注于芯片到芯片 (D2D) 互連技術(shù),以應(yīng)對芯片間通信的挑戰(zhàn)。D2D 互連設(shè)計有 3 個主要的 FOM(品質(zhì)因數(shù)):線(或面積)帶寬密度、能源效率和延遲。對于橫向 D2D 連接電路,目前線帶寬密度(shoreline bandwidth density)>1Tbps/mm,并且還在不斷增加。帶寬密度最終受限于芯片幾何形狀的物理約束(例如線寬度和凸塊間距),以及通道插入損耗和串?dāng)_帶來的性能約束。在水平情況下,我們的目標(biāo)是 1.2-2.0 毫米的通道范圍。更長的覆蓋范圍是可能的(例如:更低的數(shù)據(jù)速率、通道均衡、有源內(nèi)插器(active interposer)或錯誤檢測和糾正),但代價是更低的帶寬密度、更長的處理延遲或更高的功率 。對于垂直 D2D 連接電路,F(xiàn)2F 互連的 D2D 互連長度幾乎可以忽略不計,而 F2B 互連的 D2D 互連長度則低于 100um。下面我們展示了針對水平集成和垂直集成調(diào)整的兩個 D2D 接口的設(shè)計,同時考慮了上述三個 D2D 互連 FOM。 水平 D2D 互連:圖 2(左)是并行 PHY 接口的高級電路架構(gòu),在 TSMC 的 N7/N5/N3 工藝中實(shí)現(xiàn)了轉(zhuǎn)發(fā)時鐘,作為支持水平 D2D 連接的基礎(chǔ) IP。該設(shè)計以前是通過N7的測試芯片實(shí)現(xiàn)的。該系統(tǒng)已經(jīng)過重新架構(gòu),以提高客戶的能源效率和線帶寬密度(shoreline bandwidth density)。硅中介層(silicon interposer)上支持的最大通道長度可達(dá) 2mm?;締卧Q為通道,由1個公共通道和4個子通道組成。公共通道包括共享功能,例如時鐘生成、參考生成和驅(qū)動器含義校準(zhǔn)(driver implication calibration)。每個子通道有 40 個 Tx 通道(lane)和 40 個 Rx 通道,以及一個時鐘單元。PHY 支持 2.8-8Gbps 的數(shù)據(jù)速率。這使得每個通道每個方向的最大總數(shù)據(jù)帶寬為 1280 Gbps。每個子通道中的冗余有兩個額外的通道(lane)。如果在 Tx 和 Rx 鏈路對之間的任何地方發(fā)生制造缺陷,則可以激活冗余通道來修復(fù)缺陷。為避免不必要的開銷,每 20 個通道中只有 1 個缺陷是可修復(fù)的。可以禁用不可修復(fù)的子通道或通道,但同時要將部分降級支持更少的數(shù)據(jù)帶寬。時鐘單元在一個子通道中的 40 個 Rx 和 40 個 Tx 數(shù)據(jù)通道之間共享。在時鐘單元中,在 Tx 時鐘路徑和 Rx 時鐘路徑中分別有一個 DCC(占空比校正)電路跟隨一個去偏移環(huán)路(deskew loop)。發(fā)送去偏移環(huán)路(transmit deskew loop)用于將 SoC 時鐘域與PHY 時鐘域一致,接收去偏移環(huán)路用于將采樣時鐘與接收數(shù)據(jù)眼圖中心一致。圖 2(右)是兩個小芯片之間 D2D 接口的物理實(shí)現(xiàn),有 3 種可能的配置(4+1、2+1 和 1+1)。首選使用情況是 4+1(4 個子通道和 1 個公共通道),這是最節(jié)能的,但也支持 2+1 和 1+1 以滿足對數(shù)據(jù)帶寬需求不太高的應(yīng)用。凸塊間距為 40 微米。本質(zhì)上,每個 Tx 或 Rx 電路可以占據(jù)一個凸塊下方的部分區(qū)域。凸塊下方的其余區(qū)域用于時鐘分配或去耦電容。PHY 的電源從兩側(cè)(圖 2 右圖所示的頂部和底部)提供。用來支持晶圓級 KGD(已知良好芯片)測試期間探針卡(probe card)的探針墊(probe-pad)更大。每列有 12 個信號凸塊,每個凸塊運(yùn)行速度高達(dá) 8Gbps。除去用于邊帶握手(side bands handshaking)、通道冗余的一些凸起,每個通道實(shí)現(xiàn)的線帶寬密度(shoreline bandwidth density)為 1.78Tbps/mm,能效為 0.36pJ/bit,面積為 1440x1010um2。
圖 2. 水平 D2D 互連 (左:電路架構(gòu),右:通道平面圖) 垂直 D2D 互連:各種 3D 芯片拓?fù)涫强赡艿?。圖3顯示了先進(jìn)3D 集成中的多層芯片堆疊場景。外形尺寸(布線長度、鍵合間距和 TSV 直徑)變得越來越緊湊和小。本設(shè)計中貼片間距為9um。由于減少了 D2D 互連長度 (<100um),與水平 D2D 互連相比,通道缺陷更少。每個通道的數(shù)據(jù)速率增加到 16Gbps。圖 4(左)顯示了 PHY 的架構(gòu)圖。與水平 D2D 互連不同,時鐘單元現(xiàn)在跨 80 個數(shù)據(jù)通道共享,公共通道(lane)由兩個通道(channel)共享。這有效地減少了來自 PLL 和時鐘單元的電源開銷。每個通道每個方向的總最大數(shù)據(jù)帶寬保持為 1280Gbps。由于 PHY 現(xiàn)在受到電路限制(在這種垂直情況下,bond 面積為 81um2,而在水平情況下 ubump 面積為 1600um2),PHY 的平面圖更加緊湊,如圖 4(右)所示,每個 Tx/Rx 通道 占用 6 個鍵 (6*81um2) 的面積。總體而言,實(shí)現(xiàn)的面積帶寬密度為 17.9Tbps/mm2,能效為 0.3pJ/bit,每個通道的面積僅為 378x378um2(不包括 PLL)。 圖 3. 垂直芯片堆疊 圖 4. 垂直芯片到芯片互連 (左:電路架構(gòu),右:通道平面圖)
IV.電路設(shè)計和性能優(yōu)化 圖 5 是 Rx、Tx電路和 Rx 參考生成電路。Rx 使用基于傳統(tǒng)感應(yīng)放大器的觸發(fā)器進(jìn)行數(shù)據(jù)采集,參考電壓可通過 7 位電流 DAC 進(jìn)行調(diào)節(jié)。Tx 驅(qū)動器是低壓擺幅 NMOS 驅(qū)動器,VDDQ 低至 0.3Volt,以降低驅(qū)動器功率和串?dāng)_。
圖 5. Rx 和 Tx 的電路實(shí)現(xiàn) 圖 6 顯示了去偏移環(huán)路(deskew loop),它由一個用于 8 相時鐘生成的 DLL(延遲鎖定環(huán)路)和一個用于時鐘相位調(diào)整的 PI(相位內(nèi)插器)組成。DLL 從用于 Tx 的 ADPLL 獲取其輸入時鐘,并從 Rx_DQS(來自其他芯片的轉(zhuǎn)發(fā)時鐘)獲取輸入時鐘,。來自 DLL 的 8 相時鐘饋入 CMOS PI。PI 時鐘分配給 Tx(或 Rx)的時鐘樹,時鐘樹的端點(diǎn)也反饋到 PI 控制回路中的 PD,強(qiáng)制時鐘端點(diǎn)與時鐘 Φx 相位對齊。發(fā)送去偏移 DLL 的 Φx 來自 SoC 時鐘域,它可能來自 PHY 中的 ADPLL 或來自 SoC 中的不同 PLL。接收去偏斜環(huán)路的 Φx 來自 8 相時鐘發(fā)生器的 Φ2,以創(chuàng)建與 Rx_DQS 的 90 度相移,從而允許接收時鐘與 Rx 數(shù)據(jù)眼圖中心對齊。PI 和 DLL 環(huán)路濾波器以數(shù)字方式實(shí)現(xiàn)。
圖 6. 去偏移環(huán)路(Deskew Loop) 具有延遲 T(T 是 DLL 輸入時鐘周期時間)的延遲元件的傳遞函數(shù)可以表示為 exp(-Ts)。圖 7 (a) 是一個線性化的 DLL,其中明確顯示了延遲元件。從噪聲傳輸?shù)慕嵌葋砜矗珼LL 是輸入時鐘噪聲的全通濾波器,在 DLL 帶寬附近有輕微的抖動放大。在圖 7 (b) 中,我們提供了一個更詳細(xì)的 8 相 DLL 模型,其中延遲元件及其控制增益級分為 8 段。這更準(zhǔn)確地建模了整體抖動傳遞函數(shù)。圖 7 (c) 是 PI 控制回路。可以相應(yīng)地分析整體抖動傳遞函數(shù)。圖 8(左)顯示了 8 個輸出相位vs DLL 輸入相位的抖動傳遞函數(shù)。圖 8(右)顯示了 DLL + PI 傳遞函數(shù)的整體抖動傳遞,取決于所選的 DLL 相位(Φ1...Φ8)。很明顯,去偏移環(huán)路會放大抖動,從而導(dǎo)致轉(zhuǎn)發(fā)時鐘系統(tǒng)中的抖動跟蹤不完整。理想情況下,如果我們忽略延遲元素(即 exp(-Ts) = 1),則去偏斜環(huán)路是一個全通濾波器。因此,到去偏移環(huán)路輸入的轉(zhuǎn)發(fā)時鐘抖動(包括隨機(jī)抖動和電源抖動)將完全由數(shù)據(jù)接收器端的數(shù)據(jù)路徑上的抖動跟蹤,正如轉(zhuǎn)發(fā)時鐘架構(gòu)所期望的那樣。請注意,DLL 和 PI 本身也會產(chǎn)生噪聲,但噪聲可以忽略不計,因?yàn)榉聪嗥骶彌_區(qū)的深度僅為約 10 個反相器深度。DLL 延遲線的電源噪聲由 DLL 高通,由 PI 環(huán)路低通。如果 DLL 和 PI 環(huán)路之間存在帶寬失準(zhǔn),則 DLL 延遲線上的一些電源噪聲頻譜可能會泄漏到 PI 輸出。PI 的電源噪聲通過高通到輸出端。抖動影響是相似的?;谏鲜龇治?,時鐘抖動、PVT 偏移和電源下降將主要由去偏移環(huán)路跟蹤。殘余抖動,包括抖動放大部分、DLL 和 PI 自身產(chǎn)生的 Dj 和 Rj,以及時鐘和數(shù)據(jù)路徑不匹配導(dǎo)致的 Dj,會侵蝕眼圖裕度,是系統(tǒng)預(yù)算的一部分,通過行為仿真建模。
圖 7. 線性模型 (a) 傳統(tǒng) DLL (b) 具有延遲元件的 8 相 DLL 模型 (c) PI 環(huán)路線性模型 圖 8. 去偏移環(huán)路的抖動傳輸(左:從 DLL 時鐘輸入到 8 相輸出的抖動,右:整體去偏移環(huán)路抖動傳輸) 電源分配網(wǎng)絡(luò)對電源完整性很重要。必須盡量減少電路板、基板、中介層和芯片上電源網(wǎng)絡(luò)的 IR 壓降。在上電/斷電和電源管理期間,板載、封裝、插入器上(on-interposer)和/或片上去耦電容是抑制電壓紋波所必需的。圖 9 顯示了水平裸片到裸片互連的供電網(wǎng)絡(luò)性能,具有各種去耦電容選項(xiàng):無去耦電容、帶有 TDC(頂部裸片電容)、eDTC(嵌入式深溝槽電容器)或 TDC 和 eDTC 的組合?;旧?,包括片上 MOSCAP 和 MOM(金屬氧化物金屬)電容的 TDC 對高頻噪聲最有效。另一方面,eDTC 的電容密度大約比 MOM(金屬氧化物金屬)電容高 30 倍,但由于更高的 ESR(有效串聯(lián)電阻),可能不具有良好的高頻特性。為了實(shí)現(xiàn) 20mVpp 的目標(biāo)電壓噪聲,eDTC 在此特定設(shè)計中效率最高。這讓使用更少的片上decap來縮小 PHY面積成為可能。值得注意的是,如果使用的片上去耦電容不足,則通過片上 P/G 網(wǎng)絡(luò)的動態(tài) IR 壓降可能會加劇串?dāng)_。圖中未顯示的 MIM(金屬絕緣體金屬)也是不錯的decap選擇。其電容密度是 MOM 電容的 3 倍至 10 倍,ESR 位于 TDC 和 eDTC 之間。
圖 9. 不同去耦電容的功率傳輸特性和電源噪聲 通道優(yōu)化是 3D-IC DTCO(設(shè)計和技術(shù)協(xié)同優(yōu)化)的一部分。用于水平 D2D 互連的封裝(設(shè)計 1 圖 10)具有高達(dá) 11mVrms ICN(集成串?dāng)_噪聲),F(xiàn)EXT/NEXT 為 -27dB,盡管中介層中有電源/接地屏蔽,如剖面圖所示圖 10。這不是 8Gbps 數(shù)據(jù)速率的問題。然而,為了將線帶寬密度(shoreline bandwidth density)提高到 16Gbps 或 32Gbps(眼高和眼寬更加壓縮),需要改善串?dāng)_噪聲。圖 11 顯示了 Design2。添加電源/接地屏蔽凸塊可將串?dāng)_改善 8dB 以上。隨著我們增加每通道數(shù)據(jù)速率,線帶寬密度(shoreline bandwidth density)將增加,我們能夠在 28Gbps 通道速率下實(shí)現(xiàn) 7Tbps/mm 的峰值帶寬密度(圖 12)。然而,由于插入損耗和串?dāng)_惡化,高通道速率 (32Gbps) 下的帶寬密度變得更差。在更高的數(shù)據(jù)速率下,我們必須減少通道(lane)深度,這會降低線吞吐量(shoreline throughput)。 圖 10. D2D 互連串?dāng)_減少(凸塊頂視圖和中介層剖面圖) 圖 11. 串?dāng)_和插入損耗 圖 12.線吞吐量(Shoreline throughput) 由于間距?。ㄋ交ミB為 40um,垂直互連為 9um),因此無法直接探測芯片到芯片互連。內(nèi)置自檢電路是檢查電路質(zhì)量的必備工具,包括良率篩選和運(yùn)行裕度。圖 13 顯示了 8Gbps 互連的基于誤碼率的眼圖掃描。在與其他小芯片集成之前用于篩選 KGD(已知良好芯片)的晶圓級測試,以及用于篩選 KGS(已知良好系統(tǒng))的封裝部件測試是用于硅后驗(yàn)證的 DFT 基礎(chǔ)設(shè)施的一部分。來自 KGD/GDS 的有缺陷的零件通過前面提到的冗余通道進(jìn)行修復(fù)。
圖 13.片內(nèi)眼裕量測試(On die eye margin test)(在 VDD=0.75 和 VDDQ=0.3 時測量)
V.討論與結(jié)論 圖14是水平互連和垂直互連的芯片顯微圖。8Gbps 版本是獨(dú)立 IP 驗(yàn)證工具中具有生產(chǎn)價值的設(shè)計(相對于其中的測試芯片),主要關(guān)注電源和信號完整性以及通道設(shè)計協(xié)同優(yōu)化。垂直 D2D 互連設(shè)計用于復(fù)雜的 3D 堆疊,用于 3D 封裝和工藝 DTCO。
圖 14. 芯片到芯片互連的顯微照片 (左:水平,右:垂直) 圖 15 是上述 8Gbps 水平 D2D 互連的晶圓級 KGD 測試的電壓和頻率 schmoo 圖。最初,需要將 Vcc_mim 提高到 0.82Volt 才能無錯誤。這是由探針卡針上的電源下降和 IR 下降以及內(nèi)部電源下降(僅影響測試邏輯)造成的電壓紋波的根本原因。當(dāng)數(shù)據(jù)傳輸活動被順序觸發(fā)時,Vcc_mim 降低到 0.7V。通過調(diào)整采樣時鐘位置,可以在 Vcc_min 為 0.64V時進(jìn)一步提高裕量。實(shí)驗(yàn)室分析表明,探針的 IR 壓降會消耗 30mV 的電壓裕度。對 16Gbps 垂直 D2D 互連進(jìn)行了類似的裕量測試(圖 16)。
圖 15. 電壓和頻率 Schmoo 圖 (8Gbps) 圖 16. 電壓和頻率 Schmoo 圖 (16Gbps) 如果 PDN 網(wǎng)絡(luò)不健壯(robust),供應(yīng)下降可能是一個嚴(yán)重的性能問題,如先前 shmoo 圖中的邊際損失所示。圖 17 顯示了主電壓域上的測量電流逐漸上升并穩(wěn)定地達(dá)到穩(wěn)定狀態(tài),沒有明顯的擾動。
圖 17. 通道交錯通過順序激活數(shù)據(jù)通道來減少電壓紋波 在我們的實(shí)現(xiàn)中,我們對發(fā)送數(shù)據(jù)接口使用去偏移循環(huán)來避免額外的 Tx FIFO 延遲。我們能夠?qū)崿F(xiàn) 4ns 的總鏈路延遲。除非我們同步兩個互連小芯片的時鐘域,否則我們無法避免 Rx FIFO。其他類型的時鐘架構(gòu)可用于最小化時鐘/數(shù)據(jù)路徑失配,同時減少偏斜和抖動影響。 如上所述,垂直芯片到芯片互連不受凸塊限制,不同于水平芯片到芯片互連。隨著晶圓鍵合技術(shù)向更緊密的鍵合間距發(fā)展,更簡單的互連拓?fù)淇赡鼙鹊?III 節(jié)中介紹的架構(gòu)更加節(jié)能和具有更低延遲。通過更緊密的鍵合間距和更小的鍵合電容,每條通道(lane)的數(shù)據(jù)速率可以降低到 2Gbps 或更低,從而允許對芯片到芯片交叉電路使用簡單的反相器緩沖器,而時鐘域交叉則使用常規(guī)觸發(fā)器??梢韵〞r鐘單元和去偏移環(huán)路在內(nèi)的所有開銷。仍然需要降低額定值的 ESD 結(jié)構(gòu)。、盡管每條通道的數(shù)據(jù)速率較低,但由于更高的鍵密度,可以實(shí)現(xiàn)更高的面積帶寬密度和更好的能源效率。在適當(dāng)?shù)臅r序預(yù)算和跨芯片時序仿真的幫助下,整個 PHY 接口可以由 CAD 工具自動處理。圖 18 顯示了未來 3DIC 互連的前景。使用的品質(zhì)因數(shù)是帶寬/能量效率比。串行 IO 將覆蓋 2.5D 互連,通道可達(dá)約 2mm。當(dāng)凸塊間距約為 25um 時,串行 IO 有利于垂直芯片堆疊方案。通過減小間距和通道范圍 (~100um),數(shù)字 Lite-IO(即 CMOS 反相器)實(shí)現(xiàn)了 100 倍的帶寬/能效比。 圖 18. 3DIC 互連的前景 總之,我們提出了 3DIC 時代的設(shè)計挑戰(zhàn)。CMOS 縮放正在接近其物理極限。3D-IC 是一種使計算系統(tǒng)能夠分解為不同技術(shù)節(jié)點(diǎn)中的許多小芯片的使能技術(shù),并且由于減少了互連距離和增加了互連帶寬,還提供了更好的功率、性能、面積和成本方面的好處。我們展示了兩種用于水平和垂直 D2D 集成的互連技術(shù),具有世界一流的能效和帶寬密度。我們展示了水平 D2D 互連的峰值帶寬密度可以達(dá)到 7Tbps/mm。垂直 D2D 互連的帶寬密度將隨著鍵距的縮小而繼續(xù)增長。 與現(xiàn)有技術(shù)狀態(tài)的比較如表 1 所示。 表1. 性能比較
聲明:本文版權(quán)歸原作者所有,轉(zhuǎn)發(fā)僅為更大范圍傳播,若有異議請聯(lián)系我們修改或刪除:zhangkai@cgbtek.com