-- 作者:wangxinxin
-- 發布時間:2010-11-22 14:38:00
-- 基于DSP和FPGA的實時圖像壓縮系統設計
目前使用的圖像采集系統輸入信號通常為PAL或者NTSL制式的CVBS復合信號,壓縮速度25幀/s(PAL)或者30幀/s(NTSC)。但在工業控制、航天以及安防領域,有時需要監測快速移動的目標,或者瞬間發生的物理現象,事后還要對數據進行分析、處理。為了提高測量精度,通常需要采用高頻幀圖像采集系統。本文針對某Camera Link接口的圖像傳感器,設計了一個高頻幀圖像采集系統,該系統能夠每秒采集100幀,并對其進行JPEG壓縮,壓縮完的數據通過RS422傳輸至遠處的監測系統。 1 系統工作原理及硬件設計 系統由Camera Link接口模塊、以FPGA為核心的圖像采集預處理與傳輸單元、以DSP為核心的圖像壓縮單元以及RS422遠距離數據傳輸單元組成。由于采集、處理均需要訪問存儲器,為了降低成本,采用普通的異步SRAM,按功能區分可分為采集SRAM和壓縮處理SRAM。讀寫邏輯由FPGA控制,采用乒乓機制進行切換。整個系統結構如圖1所示。
系統工作過程:圖像信號經由LVDS轉換芯片后轉換成LVTTL信號,直接傳送至FPGA解碼為8位數據,以字節方式一行一行寫入SRAM靜態存儲器(存儲器由兩部分組成),用于乒乓緩存輸入數據,每部分滿1幀后由FPGA控制送出幀中斷給DSP,DSP啟動EDMA讀入1幀數據,采用JPEG2000方式編碼后連續寫入到FIFO_OUT,FPGA負責從FIFO_OUT讀出數據,非空即讀,緩存積累不會超過1幀數據。讀出的數據另行打包后以9 Mb/s的碼率通過DS26LV31 422接口芯片從out1接口輸出,或者分流后從out1和out2以各4.5 Mb/s的碼率輸出。 2 FPGA功能模塊設計 2.1 Camera Link接口模塊 Camera Link接口模塊負責對高頻幀數字攝像頭輸出的LVDS信號轉換為TTL標準信號。 關于Camera Link的采集數據的邏輯代碼,關鍵之處在于產生存儲器的地址信號、存儲器寫信號以及在對應的地址處將數據穩定地寫進存儲器。本系統用像素時鐘產生列地址計數器、行同步信號產生行地址計數器,兩者拼接產生存儲器的地址信號。這樣產生的有效地址雖然不連續,但意義明確,而且有利于顯示部分的隔行隔列顯示。對于8 bit的數據,可將2個有效數據拼接成16 bit后再存儲,這樣可以提高FPGA讀寫存儲器的速度。 Camera Link接口時序如圖2所示。
圖2中:VD為幀同步信號,電平模式,高電平有效;HD為行同步信號,脈沖模式,上升沿有效;PCLK為像素同步時鐘,脈沖模式;DATA為10 bit圖像數據,在PCLK的下降沿推出,接收端在PCLK上升沿采集,PCLK為常運行模式。每個VD有效期內有480個HD有效信號,在第0~478個HD有效時,每個HD有效期間有600個有效圖像數據,第479個HD(即每幀的最后1行)有效時,前600個DATA為有效圖像數據,600個DATA后預留6個字節輸出圖像相關信息,即第D600~D605為預留字節。 2.2 SRAM乒乓緩存 在圖像采集處理系統中,DSP的壓縮算法在實現時間上往往并不是固定不變的,然而前端的采集模塊卻使用均勻速度對圖像進行采集,這樣存在時間上的不同步,有可能會導致圖像數據的丟失和影響幀數據的完整性[2]。為此,本系統在采集和壓縮模塊之間增加1個緩沖電路來解決這一問題。 常用的緩沖電路主要有3種[3]:雙口RAM結構、FIFO結構和乒乓結構。由于乒乓結構可以使用相對比較便宜的高速大容量SRAM,而且可以實現數據的連續性,因此本系統采用了乒乓結構雙SRAM作為視頻數據的緩沖。在將1幀圖像的數據全部存儲完以后,DSP再利用很短的時間直接將1幀圖像數據讀入片內,這樣既可以保證不丟失像素數據、DSP可以連續采集每1幀像素數據,又能為DSP留出更多空余時間,為后面進行圖像處理提供可能。為了實現數據幀的完整性,必須保證讀取數據幀的優先級要高于寫數據幀的優先級,所以本系統的數據輸入輸出單元是根據數據處理流程來進行切換的。
乒乓控制模塊按照功能還分為:S0、S1、S2、S3 4個轉換狀態。其中,狀態S0為初始化狀態(所有信號都處于初始化狀態),系統加電或者復位后進入此狀態;在S1狀態,主要負責對SRAM0的寫入,不可以對SRAM1進行讀操作;在S2狀態,主要負責對SRAM1進行寫操作,對SRAM0進行讀操作,當SRAM1寫完后,如果SRAM0未讀完,則繼續處于狀態S2,如果SRAM0讀完,則進入狀態S3;在S3狀態,主要負責對SRAM0進行寫操作,對SRAM1進行讀操作,當SRAM0寫完后,如果SRAM1未讀完,則繼續處于狀態S3,如果SRAM1讀完,則進入狀態S2。乒乓控制模塊狀態轉換圖如圖3所示。
SRAM乒乓電路如圖4所示。圖中,wr_data為Camera Link接口接收到的只包含灰度信號的圖像數據。為了方便圖像數據的管理,每個像素、每行的像素都對應到了SRAM的固定地址,所以wr_addr為該像素在SRAM中的地址,同時也可以表示該像素在一幅圖像中的位置。CHANNEL_SEL為讀SRAM的標志位,0代表SRAM0,1代表SRAM1。
2.3 FIFO緩存模塊和RS422傳輸模塊 由于DSP向RS422模塊傳輸數據并不是勻速傳輸,而且傳輸速度比RS422的傳輸速度快很多倍,所以必須采用FIFO模塊。 3 DSP程序設計 TI公司的TMS320DM642芯片是一款高性能視頻處理器,其主頻可以高達600 MHz,數字處理能力可以達到4 800 MI/ps[3]。 DSP工作流程圖如圖5所示,DSP在相關外設與EDMA相關寄存器初始化完成后,才開始響應中斷事件觸發EDMA傳輸,在本系統中由EXITUINT4中斷上升沿觸發EDMA進行傳輸。在接收到FPGA發送的中斷信號后,開始進行EDMA傳輸,整個EDMA傳輸的過程需要10 ms左右,傳輸完成后觸發EDMA中斷,在中斷服務函數中觸發1個軟中斷,在軟中斷服務函數中進行圖像數據的壓縮。
3.1 EDMA乒乓程序設計 在整個DSP的工作流程中,要實現圖像數據采集、壓縮、傳輸同時進行,則在DSP程序中需要1個雙緩沖buffer,在向buf1中采集圖像信號的時候,DSP可以對buf2中的數據進行壓縮,而在對buf2中進行采集的時候,DSP可以對buf1中的數據進行壓縮。
實現這個功能的方法是采用EDMA ping_pong方式。在DSP中使用hEdmaPing和hEdmaPong雙通道EDMA并建立PingBuffer和PongBuffer兩個數據存儲區。 當寫完1幀圖像后,FPGA發送EXTINT4中斷信號啟動hEdmaPing將數據搬移到PingBuffer,同時將通道鏈接至hEdmaPong。在下一個中斷事件發生時將數據搬移到PongBuffer中,CPU在hEdmaPong通道完成中斷服務程序中鏈接hEdmaPing通道。如此往復,使系統數據搬移和處理連續進行。 3.2 DSP/BIOS調度程序設計 僅僅采用EDMA乒乓方式進行EDMA數據傳輸還是不夠的,不能實現數據的采集和壓縮同時進行,還需要DSP/BIOS調度程序。在任務、硬件中斷、軟件中斷中進行調度,在軟中斷服務函數中進行圖像壓縮任務。 DSP/BIOS是TI公司所設計開發的、尺寸可裁剪的實時多任務操作系統內核,通過使用DSP/BIOS提供的豐富的內核服務,開發者能快速地創建滿足實時性能要求的精細復雜的多任務應用程序。 DSP/BIOS程序編寫過程如下: (1)在DSP/BIOS配置面板中添加1個軟中斷jpeg_swi,并將該軟中斷的服務函數設置為jpeg。 (2)添加軟中斷服務函數jpeg();代碼如下: void jpeg(void) { Uint32 i; if(pingpong) bitstream_length=my_jpegenc->fxns->encode(my_jpegenc,(XDAS_Int8**)buf0,output_bitstream_buffer); else bitstream_length=my_jpegenc->fxns->encode(my_jpegenc,(XDAS_Int8 **)buf1,output_bitstream_buffer); submit_qdma(); while(!(EDMA_getPriQStatus()&EDMA_OPT_PRI_HIGH)); } (3)在EDMA中斷服務函數中添加如下代碼: SWI_post(&jpeg_swi); 該函數的作用是觸發jpeg_swi軟中斷。 4 系統關鍵技術 4.1 時鐘 在使用內部生成的時鐘過程中,可能引起設計上的功能和時限問題。組合邏輯產生的時鐘會引入毛刺,造成功能問題,而引入的延遲則可能會導致時限問題。 本設計中用到很多全局時鐘的整數倍分頻,且由于分頻的整數倍較大,如果利用FPGA中自帶的DCM模塊很難實現這樣的功能。因此,采用同步計數器的分頻方法,并且在各個時鐘信號輸出之前,再加一級寄存器輸出,這樣的操作就避免了組合邏輯生成的毛刺被阻擋在寄存器的數據輸入端口上。 4.2 DSP與FPGA數據交換 由于壓縮算法采用MECOSO公司的JPEG壓縮算法,經過優化和處理后,壓縮1幅圖像僅需要4 ms。所以影響整個系統能否實現高頻幀的關鍵技術是EDMA向SDRAM中搬移數據的速度,在本設計中設幀圖像的大小為600×480=288 KB,傳輸1幅圖像所需的時間需要10 ms。影響其速度主要有2個因素:EMIF所使用的ECLOCK和EMIF相關設置的寄存器。 在本系統中,ECLOCK采用了DSP的CPU4分頻,使EMIF的CLOCK工作在150 MHz,大大提高了搬移速度。由于SRAM映射在DSP的CE2空間,考慮到讀取數據需要建立(setup)、選通(Strobe)和保持(Hold)3個步驟,故將CE2相關寄存器的建立時間和選通時間選擇為1個clk,經Hold時間設置為0。這樣設置后EMIF總線的數據吞吐量為: 本文設計的圖像壓縮系統實現了分辨率為600×480、幀頻率為100幀/s的視頻信號輸入的圖像采集,并能夠進行實時的JPEG壓縮。系統采用DSP+FPGA的方案,雖然是一種較常用的組織方式,但在該系統中解決了一些關鍵的問題,大大提高了圖像壓縮速度及系統的靈活性。本系統已經應用于航天領域某監測系統,效果良好,運行穩定。
|