FPGA 的基本客戶訴求是更短的上市時間、更豐富的功能、支持各種不斷發展的標準、更低的風險、現場可升級性以及更低的系統成本等。我們的 FPGA 產品可滿足您不斷改進性能、容量、功耗和成本的要求。
Virtex-5 系列結合了65 納米工藝技術的固有優勢和創新設計,該創新設計立足于我們對產品應用的更深入的理解。本文中,我將對Virtex-5 器件進行概述,解釋其基礎技術,同時簡短回顧世界領先的FPGA 架構設計背后的故事。
工藝技術和架構創新
Virtex-5 FPGA 基于65 納米的三柵極氧化層技術, 使用先進的硅組合模塊(ASMBLTM) 架構并且實現了更高級別的系統集成。這個全新的產品系列提供了一個高級平臺,可以滿足用戶對于建造具有更高性能、更高密度、更低功耗和更低成本的可編程系統日益增長的需求。滿足上述一個或者兩個需求也許比較容易,但是挑戰在于我們要同時滿足所有這些需求。我們通過將先進的IC 工藝、創新的架構以及電路設計相結合,成功地應對了這些挑戰。首先在 Virtex-4 系列中引入的成熟的 ASMBL 芯片版圖架構,可以提供所要求器件資源(邏輯、存儲器、算術、I/O和IP)的最優組合,從而為以下四個新平臺創造了最佳條件:
相對于Virtex-4 系列,Virtex-5 系列中配置最高的型號的平均速度提高了30%,容量提高了65%,動態功耗降低了35%,芯片面積縮小了45%,結果實現了達到每項功能的最低成本。
高性能和高密度
ExpressFabricTM 技術實現了邏輯和局部互連布線。它將查找表 (LUT)、六個獨立的輸入和一個新的對角互連結構結合在一起,如圖1 所示。相對于 Virtex-4 架構而言,ExpressFabric 技術利用更少的 LUT層次以及更少的串行連接(面向相鄰構件)實現了組合邏輯。這種方法縮短了數據通路延遲,從而提高了設計性能。
圖1 - Virtex-5 ExpressFabric 技術
先進的6-LUT 邏輯結構
多年以來,四輸入 LUT 一直是業界標準。但是,在65 納米工藝條件下,相較于其它電路(特別是互連電路),LUT 的常規結構大大縮小。一個具有四倍比特位的六輸入LUT (6-LUT) 僅僅將 CLB 面積提高了15% - 但是平均而言,每個 LUT 上可集成的邏輯數量卻增加了40%。更高的邏輯密度通常可以降低級聯 LUT 的數目,并且改進關鍵路徑延遲性能,如圖2 所示。
圖2 - 在性能和面積之間達到最佳平衡
我們選擇了一套客戶設計方案,然后使用 ISETM 8.1i 軟件實現該方案。對于每個設計,我們比較了Virtex-4 和 Virtex-5器件實現中所用的 LUT 數目,并將此信息和兆赫茲的性能提升相關聯。圖3 中的散點圖顯示了X軸上的性能提升百分比和Y軸上根據 LUT 數目的降低計算得出的面積縮小比例。這種新的6-LUTExpressFabric 技術在性能提升和資源節約方面都表現出色。
不同于競爭 FPGA 的是,Virtex-5FPGA 提供了真正的 6-LUT,你可以將它用作邏輯或者分布式存儲器,這時 LUT是一個64 位的分布式 RAM (甚至雙端口或者四端口)或者一個32 位可編程移位寄存器。每個 LUT 具有兩個輸出,從而實現了五個變量的兩個邏輯函數,存儲32 x 2 RAM 比特,或者作為16 x 2-bit 的移位寄存器進行工作。
圖3 - Virtex-5 FPGA 和 Virtex-4 FPGA 設計套件的評測基準
新的對角對稱互連
一種新的對角對稱互連模式通過在更少的布線跳接中獲得更多的空間來提高性能。關于Virtex-5 和Virtex-4 FPGA 互連模式(每個正方形代表一個 CLB)的比較,請參見圖1。通過色標可以看出,使用Virtex-5 FPGA 使該模式更加對稱,同時利用更少的跳接到達了更多的 CLB。憑借布局布線軟件工具,這種對稱性可以取得更好的結果。
這些特性對于 Virtex-5 FPGA 的用戶來說是完全透明的,并且能夠被 ISE 軟件自動執行,從而帶來更加簡單的可布線性和更好的總體性能。
最低功耗的先進 FPGA 解決方案
Virtex-5 器件系列采用領先的65 納米、三柵極氧化層、11 層銅布線的 CMOS 工藝技術。“三柵極氧化層”是指采用不同的晶體管柵極氧化層厚度的數目。I/O 晶體管必須可以承受 3.3V 的電壓,因此使用相對較厚的氧化層,但是邏輯和其它核心功能所使用的超高速晶體管則一般采用超薄氧化層。不幸的是,超薄氧化層和超低閾值電壓不可避免地帶來較高的泄漏電流。然而,FPGA 中有很多晶體管不需要很高的速度(特別是那些配置存儲單元)。從Virtex-4系列開始,Xilinx 率先采用了第三種中間柵極氧化層厚度,專門針對這一類晶體管。這種三柵極氧化層方法允許我們對器件電路的性能和功耗進行微調。它使得Virtex-5器件可以提供業界領先的性能,同時能夠大幅度降低泄漏電流,從而降低了靜態功耗。
此外,新的 6-LUT 邏輯結構在每個LUT 中融合了更多的邏輯塊,使用了較少的局部互連節點和更少的高電容節點(邏輯功能之間),降低了邏輯層次,從而縮短了路徑延遲。這種新的對稱布線還使相鄰邏輯之間的連接更加直接,這進一步降低了布線電容。VCCINT,核心供電電壓,現在是1.0V。所有這些因素都有助于總體動態功耗的降低。Virtex-4 系列的成功告訴我們,很多工程師將性能和功耗看作是系統設計中的兩個同等重要的約束條件;因此,我們既需要高性能,也需要低功耗。我們對 Virtex-5 的邏輯結構進行了徹底的改進,以便充分利用65 納米三柵極氧化層的CMOS 工藝,結果是誕生了迄今為止性能最高的結構,系統時鐘頻率超過550 MHz。和90 納米 Virtex-4 相比,Virtex-5 的靜態功耗大體相當,但動態功耗至少降低了35%。就像它的前輩一樣,Virtex-5 系列又一次提供了其他高級FPGA 系列難以比擬的低功耗解決方案。
適用于系統集成的高級特性
在Virtex-5 系列中,我們在每個時鐘管理管道 (CMT) 中加入了一個鎖相環(PLL),現在每個時鐘管理管道含有兩個數字時鐘管理器 (DCM) 和一個PLL。因此 CMT同時提供了兩個域(數字域和模擬域)的最優特性:數字時鐘管理器所具備的強健的多功能性和精確的遞增相移能力,與模擬PLL 帶來的降低抖動性能。該系列中配置最高的型號具備六個可以產生和操作550MHz 時鐘的CMT , 從而支持Virtex-5 的邏輯和模塊功能。
同步雙端口 block RAM 是一個重要的功能塊。每個 block RAM 的大小已經增加到36 Kb,但是你可以將它用作兩個單獨的 18-Kb block RAM。數據總線寬度從1 位到36 位是可編程的。在簡單雙端口模式(一個端口寫,另一個端口讀),數據總線寬度可以高達72 位,有效地加倍了數據帶寬。你還可以關閉未被使用的18-Kb block RAM 以節省功耗。
該block RAM 帶有集成的 FIFO 控制邏輯,從而簡化了在高達 550 MHz 時鐘頻率下運行的異步(或同步) FIFO 的設計,同時無需消耗任何邏輯資源。
72 位寬的 block RAM 現在還包括64-bit 的檢錯誤和糾錯 (ECC) 控制邏輯。類似于集成的 FIFO 支持功能,該集成化 ECC 提高了存儲器的性能,同時消除了那些和傳統的基于結構的解決方案相關的成本。你還可以使用專用 ECC 邏輯來增強外部存儲器接口。
我們最新推出的 ChipSyncTM 技術大幅度增強和簡化了與外部設備尤其是外部存儲器(比如DDR、DDR2、 QDR II 和RLDRAM II)的連接。基于我們 LX50T 器件的存儲器開發系統 (ML561),包含通過硬件驗證的實用參考設計,該參考設計可以用于目前所有的主流存儲技術。
在 DSP 領域,我們推出了一個 25 x18-bit 的乘法器,主要用于更高效率的浮點設計。這些 DSP48E 邏輯片可以進行直接級聯,從而能夠在數字濾波或視頻廣播應用中實現更高的性能。直接級聯還可以節省功耗 - 和其它競爭方案比較,我們可以降低40%的功耗。Virtex-5 SelectIO? 技術繼續在業界保持領先地位。所有引腳實際上都支持目前使用的所有 I/O 標準,并且提供高達1.25 Gbps 的 LVDS 和 800 Mbps 的單端 I/O 性能。除了提供可編程輸入延遲(步長75ps ) 的 IDELAY 選項外, 新推出的ODELAY 選項為 FPGA 的輸出端提供了同樣精細的粒度。每個功能都可以在所有器件的引腳上進行單獨編程。IODELAY 功能是一個重要的特性,可以增強對高速源同步數據和時鐘的可靠發送和接收。目標應用包括板級偏斜補償、總線的位對準以及數據和時鐘信號的對準。該功能能夠讓 LVDS I/O 實現每對引腳高達1.25 Gbps 的速率。Virtex-5 LXT 、SXT 和 FXT 器件同樣提供了嵌入式串行收發器 - 在配置最高的 LXT 器件中包含的這種收發器的數目竟然高達 24 個。在開發高速串行收發器的第四代 RocketIO? 技術時,我們在降低功耗方面投入大量的精力。在3.2Gbps的峰值速率下,LXT RocketIO 收發器的功耗低于100 mW,使其成為所有FPGA 產品中功耗最低的收發器(參閱圖4)。
圖4 - RocketIO GTP 收發器
每個 Virtex-5 LXT RocketIO 收發器都是可編程的,可以實現各種速率,支持各種串行標準。我們面向每個標準(比如以太網、HD/SDI、串行RapidIO、FibreChannel 和 Aurora)推出了鏈路層IP。最后,我們預計到 PCI Express (PCIe)端點應用的普遍性,在硬件邏輯中集成了完整的 PCIe 端點協議。Virtex-5 LXT PCIe 端點模塊完全兼容 PCIe 標準規范的1.1 版本,可以支持x1、x2、x4 和 x8的通道實現方案。集成式硬 IP 節省了邏輯資源,并且提高了日益普及的 PCIe 應用的性能。對于 x4 PCIe 通道的實現而言,較之軟 IP 實現方案,Virtex-5 PCIe子系統模塊節省的 LUT 數目高達 8,500個。Virtex-5 器件提供了更多和更小的I/O bank。外部 I/O bank (配置最高的型號中含有八個 bank )也經過精心安排,從而方便 PCB 布線,在某些情況下可以節省 PCB 板的布線層級。
為了保證取得 FPGA 業界最佳的同步切換輸出 (SSO) 性能, 并且實現FPGA 業界最好的信號完整性 (SI) 解決方案,所有 Virtex-5 器件均利用 Xilinx的稀疏鋸齒技術進行插腳引線的對齊。這種方法確保每個 I/O 引腳都可以被電源引腳和地引腳緊密包圍,從而使電流環電感最小,進而提高了信號完整性。
結論
希望我前面的介紹能夠讓您更好地了解Virtex-5 器件及其背后的設計動因。我們非常希望系統設計界能夠接納這種全新的架構。我們希望看到您的下一代系統能夠從 Virtex-5 增強的性能和功能中獲益,將您的復雜設計提升到一個新的高度。