Xilinx
? Virtex-5 系列不僅是業(yè)界首批65 納米的 FPGA,它還提供了一些迄今為止最先進(jìn)的架構(gòu)和最高的性能。作為我們?cè)陂_發(fā)開創(chuàng)性技術(shù)的一個(gè)傳統(tǒng),過去我們聽取了來自不同領(lǐng)域的領(lǐng)先設(shè)計(jì)工程師的意見,開發(fā)出了關(guān)鍵的特性,這些特性使我們的 Virtex-4 FPGA 系列取得了巨大的成功:
FPGA 的基本客戶訴求是更短的上市時(shí)間、更豐富的功能、支持各種不斷發(fā)展的標(biāo)準(zhǔn)、更低的風(fēng)險(xiǎn)、現(xiàn)場(chǎng)可升級(jí)性以及更低的系統(tǒng)成本等。我們的 FPGA 產(chǎn)品可滿足您不斷改進(jìn)性能、容量、功耗和成本的要求。
Virtex-5 系列結(jié)合了65 納米工藝技術(shù)的固有優(yōu)勢(shì)和創(chuàng)新設(shè)計(jì),該創(chuàng)新設(shè)計(jì)立足于我們對(duì)產(chǎn)品應(yīng)用的更深入的理解。本文中,我將對(duì)Virtex-5 器件進(jìn)行概述,解釋其基礎(chǔ)技術(shù),同時(shí)簡(jiǎn)短回顧世界領(lǐng)先的FPGA 架構(gòu)設(shè)計(jì)背后的故事。
工藝技術(shù)和架構(gòu)創(chuàng)新
Virtex-5 FPGA 基于65 納米的三柵極氧化層技術(shù), 使用先進(jìn)的硅組合模塊(ASMBLTM) 架構(gòu)并且實(shí)現(xiàn)了更高級(jí)別的系統(tǒng)集成。這個(gè)全新的產(chǎn)品系列提供了一個(gè)高級(jí)平臺(tái),可以滿足用戶對(duì)于建造具有更高性能、更高密度、更低功耗和更低成本的可編程系統(tǒng)日益增長(zhǎng)的需求。滿足上述一個(gè)或者兩個(gè)需求也許比較容易,但是挑戰(zhàn)在于我們要同時(shí)滿足所有這些需求。我們通過將先進(jìn)的IC 工藝、創(chuàng)新的架構(gòu)以及電路設(shè)計(jì)相結(jié)合,成功地應(yīng)對(duì)了這些挑戰(zhàn)。首先在 Virtex-4 系列中引入的成熟的 ASMBL 芯片版圖架構(gòu),可以提供所要求器件資源(邏輯、存儲(chǔ)器、算術(shù)、I/O和IP)的最優(yōu)組合,從而為以下四個(gè)新平臺(tái)創(chuàng)造了最佳條件:
- 針對(duì)高性能邏輯進(jìn)行優(yōu)化的 LX 平臺(tái)
- 針對(duì)具有低功耗串行 I/O 的高性能邏輯進(jìn)行優(yōu)化的 LXT 平臺(tái)
- 針對(duì)具有低功耗串行 I/O 的高性能算術(shù)和存儲(chǔ)密集型 DSP 進(jìn)行優(yōu)化的SXT 平臺(tái)
- 針對(duì)嵌入式處理和超高速串行 I/O 進(jìn)行優(yōu)化的 FXT 平臺(tái)
相對(duì)于Virtex-4 系列,Virtex-5 系列中配置最高的型號(hào)的平均速度提高了30%,容量提高了65%,動(dòng)態(tài)功耗降低了35%,芯片面積縮小了45%,結(jié)果實(shí)現(xiàn)了達(dá)到每項(xiàng)功能的最低成本。
高性能和高密度
ExpressFabricTM 技術(shù)實(shí)現(xiàn)了邏輯和局部互連布線。它將查找表 (LUT)、六個(gè)獨(dú)立的輸入和一個(gè)新的對(duì)角互連結(jié)構(gòu)結(jié)合在一起,如圖1 所示。相對(duì)于 Virtex-4 架構(gòu)而言,ExpressFabric 技術(shù)利用更少的 LUT層次以及更少的串行連接(面向相鄰構(gòu)件)實(shí)現(xiàn)了組合邏輯。這種方法縮短了數(shù)據(jù)通路延遲,從而提高了設(shè)計(jì)性能。
![](http://www.hirain.com/eWebEditor/UploadFile/2007518115658250.gif)
圖1 - Virtex-5 ExpressFabric 技術(shù)
先進(jìn)的6-LUT 邏輯結(jié)構(gòu)
多年以來,四輸入 LUT 一直是業(yè)界標(biāo)準(zhǔn)。但是,在65 納米工藝條件下,相較于其它電路(特別是互連電路),LUT 的常規(guī)結(jié)構(gòu)大大縮小。一個(gè)具有四倍比特位的六輸入LUT (6-LUT) 僅僅將 CLB 面積提高了15% - 但是平均而言,每個(gè) LUT 上可集成的邏輯數(shù)量卻增加了40%。更高的邏輯密度通常可以降低級(jí)聯(lián) LUT 的數(shù)目,并且改進(jìn)關(guān)鍵路徑延遲性能,如圖2 所示。
![](http://www.hirain.com/eWebEditor/UploadFile/2007518115659528.gif)
圖2 - 在性能和面積之間達(dá)到最佳平衡
我們選擇了一套客戶設(shè)計(jì)方案,然后使用 ISETM 8.1i 軟件實(shí)現(xiàn)該方案。對(duì)于每個(gè)設(shè)計(jì),我們比較了Virtex-4 和 Virtex-5器件實(shí)現(xiàn)中所用的 LUT 數(shù)目,并將此信息和兆赫茲的性能提升相關(guān)聯(lián)。圖3 中的散點(diǎn)圖顯示了X軸上的性能提升百分比和Y軸上根據(jù) LUT 數(shù)目的降低計(jì)算得出的面積縮小比例。這種新的6-LUTExpressFabric 技術(shù)在性能提升和資源節(jié)約方面都表現(xiàn)出色。
不同于競(jìng)爭(zhēng) FPGA 的是,Virtex-5FPGA 提供了真正的 6-LUT,你可以將它用作邏輯或者分布式存儲(chǔ)器,這時(shí) LUT是一個(gè)64 位的分布式 RAM (甚至雙端口或者四端口)或者一個(gè)32 位可編程移位寄存器。每個(gè) LUT 具有兩個(gè)輸出,從而實(shí)現(xiàn)了五個(gè)變量的兩個(gè)邏輯函數(shù),存儲(chǔ)32 x 2 RAM 比特,或者作為16 x 2-bit 的移位寄存器進(jìn)行工作。
![](http://www.hirain.com/eWebEditor/UploadFile/2007518115659725.gif)
圖3 - Virtex-5 FPGA 和 Virtex-4 FPGA 設(shè)計(jì)套件的評(píng)測(cè)基準(zhǔn)
新的對(duì)角對(duì)稱互連
一種新的對(duì)角對(duì)稱互連模式通過在更少的布線跳接中獲得更多的空間來提高性能。關(guān)于Virtex-5 和Virtex-4 FPGA 互連模式(每個(gè)正方形代表一個(gè) CLB)的比較,請(qǐng)參見圖1。通過色標(biāo)可以看出,使用Virtex-5 FPGA 使該模式更加對(duì)稱,同時(shí)利用更少的跳接到達(dá)了更多的 CLB。憑借布局布線軟件工具,這種對(duì)稱性可以取得更好的結(jié)果。
這些特性對(duì)于 Virtex-5 FPGA 的用戶來說是完全透明的,并且能夠被 ISE 軟件自動(dòng)執(zhí)行,從而帶來更加簡(jiǎn)單的可布線性和更好的總體性能。
最低功耗的先進(jìn) FPGA 解決方案
Virtex-5 器件系列采用領(lǐng)先的65 納米、三柵極氧化層、11 層銅布線的 CMOS 工藝技術(shù)。“三柵極氧化層”是指采用不同的晶體管柵極氧化層厚度的數(shù)目。I/O 晶體管必須可以承受 3.3V 的電壓,因此使用相對(duì)較厚的氧化層,但是邏輯和其它核心功能所使用的超高速晶體管則一般采用超薄氧化層。不幸的是,超薄氧化層和超低閾值電壓不可避免地帶來較高的泄漏電流。然而,F(xiàn)PGA 中有很多晶體管不需要很高的速度(特別是那些配置存儲(chǔ)單元)。從Virtex-4系列開始,Xilinx 率先采用了第三種中間柵極氧化層厚度,專門針對(duì)這一類晶體管。這種三柵極氧化層方法允許我們對(duì)器件電路的性能和功耗進(jìn)行微調(diào)。它使得Virtex-5器件可以提供業(yè)界領(lǐng)先的性能,同時(shí)能夠大幅度降低泄漏電流,從而降低了靜態(tài)功耗。
此外,新的 6-LUT 邏輯結(jié)構(gòu)在每個(gè)LUT 中融合了更多的邏輯塊,使用了較少的局部互連節(jié)點(diǎn)和更少的高電容節(jié)點(diǎn)(邏輯功能之間),降低了邏輯層次,從而縮短了路徑延遲。這種新的對(duì)稱布線還使相鄰邏輯之間的連接更加直接,這進(jìn)一步降低了布線電容。VCCINT,核心供電電壓,現(xiàn)在是1.0V。所有這些因素都有助于總體動(dòng)態(tài)功耗的降低。Virtex-4 系列的成功告訴我們,很多工程師將性能和功耗看作是系統(tǒng)設(shè)計(jì)中的兩個(gè)同等重要的約束條件;因此,我們既需要高性能,也需要低功耗。我們對(duì) Virtex-5 的邏輯結(jié)構(gòu)進(jìn)行了徹底的改進(jìn),以便充分利用65 納米三柵極氧化層的CMOS 工藝,結(jié)果是誕生了迄今為止性能最高的結(jié)構(gòu),系統(tǒng)時(shí)鐘頻率超過550 MHz。和90 納米 Virtex-4 相比,Virtex-5 的靜態(tài)功耗大體相當(dāng),但動(dòng)態(tài)功耗至少降低了35%。就像它的前輩一樣,Virtex-5 系列又一次提供了其他高級(jí)FPGA 系列難以比擬的低功耗解決方案。
適用于系統(tǒng)集成的高級(jí)特性
在Virtex-5 系列中,我們?cè)诿總(gè)時(shí)鐘管理管道 (CMT) 中加入了一個(gè)鎖相環(huán)(PLL),現(xiàn)在每個(gè)時(shí)鐘管理管道含有兩個(gè)數(shù)字時(shí)鐘管理器 (DCM) 和一個(gè)PLL。因此 CMT同時(shí)提供了兩個(gè)域(數(shù)字域和模擬域)的最優(yōu)特性:數(shù)字時(shí)鐘管理器所具備的強(qiáng)健的多功能性和精確的遞增相移能力,與模擬PLL 帶來的降低抖動(dòng)性能。該系列中配置最高的型號(hào)具備六個(gè)可以產(chǎn)生和操作550MHz 時(shí)鐘的CMT , 從而支持Virtex-5 的邏輯和模塊功能。
同步雙端口 block RAM 是一個(gè)重要的功能塊。每個(gè) block RAM 的大小已經(jīng)增加到36 Kb,但是你可以將它用作兩個(gè)單獨(dú)的 18-Kb block RAM。數(shù)據(jù)總線寬度從1 位到36 位是可編程的。在簡(jiǎn)單雙端口模式(一個(gè)端口寫,另一個(gè)端口讀),數(shù)據(jù)總線寬度可以高達(dá)72 位,有效地加倍了數(shù)據(jù)帶寬。你還可以關(guān)閉未被使用的18-Kb block RAM 以節(jié)省功耗。
該block RAM 帶有集成的 FIFO 控制邏輯,從而簡(jiǎn)化了在高達(dá) 550 MHz 時(shí)鐘頻率下運(yùn)行的異步(或同步) FIFO 的設(shè)計(jì),同時(shí)無需消耗任何邏輯資源。
72 位寬的 block RAM 現(xiàn)在還包括64-bit 的檢錯(cuò)誤和糾錯(cuò) (ECC) 控制邏輯。類似于集成的 FIFO 支持功能,該集成化 ECC 提高了存儲(chǔ)器的性能,同時(shí)消除了那些和傳統(tǒng)的基于結(jié)構(gòu)的解決方案相關(guān)的成本。你還可以使用專用 ECC 邏輯來增強(qiáng)外部存儲(chǔ)器接口。
我們最新推出的 ChipSyncTM 技術(shù)大幅度增強(qiáng)和簡(jiǎn)化了與外部設(shè)備尤其是外部存儲(chǔ)器(比如DDR、DDR2、 QDR II 和RLDRAM II)的連接。基于我們 LX50T 器件的存儲(chǔ)器開發(fā)系統(tǒng) (ML561),包含通過硬件驗(yàn)證的實(shí)用參考設(shè)計(jì),該參考設(shè)計(jì)可以用于目前所有的主流存儲(chǔ)技術(shù)。
在 DSP 領(lǐng)域,我們推出了一個(gè) 25 x18-bit 的乘法器,主要用于更高效率的浮點(diǎn)設(shè)計(jì)。這些 DSP48E 邏輯片可以進(jìn)行直接級(jí)聯(lián),從而能夠在數(shù)字濾波或視頻廣播應(yīng)用中實(shí)現(xiàn)更高的性能。直接級(jí)聯(lián)還可以節(jié)省功耗 - 和其它競(jìng)爭(zhēng)方案比較,我們可以降低40%的功耗。Virtex-5 SelectIO? 技術(shù)繼續(xù)在業(yè)界保持領(lǐng)先地位。所有引腳實(shí)際上都支持目前使用的所有 I/O 標(biāo)準(zhǔn),并且提供高達(dá)1.25 Gbps 的 LVDS 和 800 Mbps 的單端 I/O 性能。除了提供可編程輸入延遲(步長(zhǎng)75ps ) 的 IDELAY 選項(xiàng)外, 新推出的ODELAY 選項(xiàng)為 FPGA 的輸出端提供了同樣精細(xì)的粒度。每個(gè)功能都可以在所有器件的引腳上進(jìn)行單獨(dú)編程。IODELAY 功能是一個(gè)重要的特性,可以增強(qiáng)對(duì)高速源同步數(shù)據(jù)和時(shí)鐘的可靠發(fā)送和接收。目標(biāo)應(yīng)用包括板級(jí)偏斜補(bǔ)償、總線的位對(duì)準(zhǔn)以及數(shù)據(jù)和時(shí)鐘信號(hào)的對(duì)準(zhǔn)。該功能能夠讓 LVDS I/O 實(shí)現(xiàn)每對(duì)引腳高達(dá)1.25 Gbps 的速率。Virtex-5 LXT 、SXT 和 FXT 器件同樣提供了嵌入式串行收發(fā)器 - 在配置最高的 LXT 器件中包含的這種收發(fā)器的數(shù)目竟然高達(dá) 24 個(gè)。在開發(fā)高速串行收發(fā)器的第四代 RocketIO? 技術(shù)時(shí),我們?cè)诮档凸姆矫嫱度氪罅康木ΑT?.2Gbps的峰值速率下,LXT RocketIO 收發(fā)器的功耗低于100 mW,使其成為所有FPGA 產(chǎn)品中功耗最低的收發(fā)器(參閱圖4)。
![](http://www.hirain.com/eWebEditor/UploadFile/2007518115659293.gif)
圖4 - RocketIO GTP 收發(fā)器
每個(gè) Virtex-5 LXT RocketIO 收發(fā)器都是可編程的,可以實(shí)現(xiàn)各種速率,支持各種串行標(biāo)準(zhǔn)。我們面向每個(gè)標(biāo)準(zhǔn)(比如以太網(wǎng)、HD/SDI、串行RapidIO、FibreChannel 和 Aurora)推出了鏈路層IP。最后,我們預(yù)計(jì)到 PCI Express (PCIe)端點(diǎn)應(yīng)用的普遍性,在硬件邏輯中集成了完整的 PCIe 端點(diǎn)協(xié)議。Virtex-5 LXT PCIe 端點(diǎn)模塊完全兼容 PCIe 標(biāo)準(zhǔn)規(guī)范的1.1 版本,可以支持x1、x2、x4 和 x8的通道實(shí)現(xiàn)方案。集成式硬 IP 節(jié)省了邏輯資源,并且提高了日益普及的 PCIe 應(yīng)用的性能。對(duì)于 x4 PCIe 通道的實(shí)現(xiàn)而言,較之軟 IP 實(shí)現(xiàn)方案,Virtex-5 PCIe子系統(tǒng)模塊節(jié)省的 LUT 數(shù)目高達(dá) 8,500個(gè)。Virtex-5 器件提供了更多和更小的I/O bank。外部 I/O bank (配置最高的型號(hào)中含有八個(gè) bank )也經(jīng)過精心安排,從而方便 PCB 布線,在某些情況下可以節(jié)省 PCB 板的布線層級(jí)。
為了保證取得 FPGA 業(yè)界最佳的同步切換輸出 (SSO) 性能, 并且實(shí)現(xiàn)FPGA 業(yè)界最好的信號(hào)完整性 (SI) 解決方案,所有 Virtex-5 器件均利用 Xilinx的稀疏鋸齒技術(shù)進(jìn)行插腳引線的對(duì)齊。這種方法確保每個(gè) I/O 引腳都可以被電源引腳和地引腳緊密包圍,從而使電流環(huán)電感最小,進(jìn)而提高了信號(hào)完整性。
結(jié)論
希望我前面的介紹能夠讓您更好地了解Virtex-5 器件及其背后的設(shè)計(jì)動(dòng)因。我們非常希望系統(tǒng)設(shè)計(jì)界能夠接納這種全新的架構(gòu)。我們希望看到您的下一代系統(tǒng)能夠從 Virtex-5 增強(qiáng)的性能和功能中獲益,將您的復(fù)雜設(shè)計(jì)提升到一個(gè)新的高度。