看了許多網(wǎng)上使用MSSQL Server 2000/2005使用UTF-8造成數(shù)據(jù)庫(kù)存儲(chǔ)亂碼的描述,也說(shuō)一下自己做的一個(gè)國(guó)際化項(xiàng)目的經(jīng)驗(yàn)。
這個(gè)項(xiàng)目描述:
架構(gòu):VC++的ATL Server進(jìn)行開(kāi)發(fā);
頁(yè)面:web頁(yè)面是UTF-8編碼,CodePage=65001;
應(yīng)用服務(wù)器程序:編譯好的dll是Unicode編碼;
操作系統(tǒng):中文Windows 2003 Server;
數(shù)據(jù)庫(kù)聯(lián)接方式:OLEDB
數(shù)據(jù)庫(kù):中文MSSQL Sever2005,顯示Codepage=936,
字段都是支持Unicode的nchar,nvarcha,nText;
SELECT COLLATIONPROPERTY('Chinese_PRC_Stroke_CI_AI', 'CodePage')
936
________________________________________________
發(fā)現(xiàn)從Web頁(yè)面提交的數(shù)據(jù)到數(shù)據(jù)后查詢總是亂碼,經(jīng)過(guò)檢查,發(fā)現(xiàn)保存的數(shù)據(jù)直接就是是UTF-8編碼,其CodePage=65001,而數(shù)據(jù)默認(rèn)顯示支持的Unicode語(yǔ)言版本Codepage=936(即是簡(jiǎn)體中文),所以數(shù)據(jù)查詢的就是亂碼,想過(guò)兩種方案:
1,懷疑是數(shù)據(jù)時(shí)UTF-8編碼,而SQLServer是UCS-2 版本,相通過(guò)UTF-8-〉UCS-2轉(zhuǎn)換,發(fā)現(xiàn)還是行不通,仍然亂碼,此路不通;
2,
搜索了網(wǎng)絡(luò)發(fā)現(xiàn)并沒(méi)有現(xiàn)成的例子,經(jīng)過(guò)測(cè)試中文系統(tǒng)使用Web頁(yè)面為GB2312編碼提交的數(shù)據(jù)到數(shù)據(jù)很正常,基于Windows2003是支持
Unicode(UCS-2),排除操作系統(tǒng)的問(wèn)題,這個(gè)過(guò)程經(jīng)過(guò)分析可以這么理解:936(Web頁(yè)面編碼GB2312)-〉Unicode(應(yīng)用服務(wù)
器端)-〉Unicode(數(shù)據(jù)庫(kù)OLEDB傳輸)-〉UCS-2(數(shù)據(jù)庫(kù))-〉自動(dòng)轉(zhuǎn)化為936(Unicode簡(jiǎn)體中文語(yǔ)言版本),而使用UTF-8
的Web頁(yè)面這個(gè)過(guò)程就是:65001(Web頁(yè)面編碼UTF-8)-〉Unicode(應(yīng)用服務(wù)器端)-〉Unicode(數(shù)據(jù)庫(kù)OLEDB傳輸)-〉
UCS-2(數(shù)據(jù)庫(kù))-〉自動(dòng)轉(zhuǎn)化為936(Unicode簡(jiǎn)體中文語(yǔ)言版本),所以最后的使用數(shù)據(jù)分析查詢器看到的就是亂碼,最后確定的方案就是兩種手
段:一是更改數(shù)據(jù)查詢分析器的Codepage為65001,很顯然當(dāng)前的SQLServer沒(méi)有這個(gè)功能(沒(méi)找到?知道的告訴我);二是將前端的UTF
-8轉(zhuǎn)為GB2312編碼,很顯然這個(gè)最后成功了,這個(gè)過(guò)程程序還是保留了所有的多語(yǔ)言的特性,一位UTF-8-〉GB2312,這個(gè)過(guò)程是無(wú)損的(新的
驗(yàn)證會(huì)出現(xiàn)部分方塊無(wú)法顯示),因?yàn)槭荱TF-8->Unicode->GB2312.
總結(jié):
1,MSSQL
Server不支持UTF-8(Codepage=65001)直接顯示,數(shù)據(jù)庫(kù)查詢的顯示數(shù)據(jù)使用默認(rèn)的Codepage,如簡(jiǎn)體中文版就是936,繁
體中文是950,韓文949等,因此從使用的Web頁(yè)面UTF-8提交的數(shù)據(jù)自動(dòng)轉(zhuǎn)換為所用的Codepage顯示,因此就是亂碼,這個(gè)有待MS
SQL
Server進(jìn)一步發(fā)展,因?yàn)楝F(xiàn)在Oracle和MySQL是可以支持直接UTF-8存儲(chǔ)顯示,國(guó)際化時(shí)請(qǐng)先將數(shù)據(jù)由UTF-8編碼轉(zhuǎn)化為MSSQL數(shù)據(jù)
庫(kù)默認(rèn)的編碼,讀寫出來(lái)這個(gè)過(guò)程著相反進(jìn)行轉(zhuǎn)化,這個(gè)過(guò)程看起來(lái)會(huì)因?yàn)檗D(zhuǎn)化過(guò)程影響處理速度(抉擇于國(guó)際化);
2,ASP/ASPX/JSP/PHP使用MSSQL Server編程支持UTF-8都會(huì)面臨這樣的問(wèn)題,可以看看MSDN有關(guān)這個(gè)方面的解釋
補(bǔ)充:根據(jù)測(cè)試和MSDN分析,將UTF-8轉(zhuǎn)化為GB2312并不是很好的方案,這樣會(huì)使包含韓文、阿拉伯文等等,這些都會(huì)變成問(wèn)號(hào),所以整個(gè)過(guò)程并不是很繁瑣,簡(jiǎn)化一下:
寫數(shù)據(jù)庫(kù):瀏覽器表單提交數(shù)據(jù)(UTF-8)(ANSI編碼)-〉應(yīng)用服務(wù)器端程序(進(jìn)行UTF-8-〉Unicode)-〉MS SQL Server(自動(dòng)轉(zhuǎn)化為字符集936編碼顯示內(nèi)容,但數(shù)據(jù)肯定是Unicode方式存儲(chǔ)的);
讀數(shù)據(jù)庫(kù):MS SQL Server(936 - Unicode)-〉應(yīng)用服務(wù)器端程序(進(jìn)行Unicode-〉UTF-8)-〉瀏覽器顯示
注意:其他條件設(shè)置不變
兩個(gè)使用的函數(shù):
1,UTF8轉(zhuǎn)化為Unicode,inline為了編譯后更快運(yùn)行,老用到了,返回字符串為了使用鏈?zhǔn)奖磉_(dá)式
inline WCHAR *UTF8ToUnicode(const char *str) throw()
{
int i = MultiByteToWideChar(CP_UTF8,MB_ERR_INVALID_CHARS,str,-1,NULL,0);
WCHAR *strUnicode=new WCHAR[i];
MultiByteToWideChar(CP_UTF8,MB_ERR_INVALID_CHARS,str,-1,strUnicode,i);
return strUnicode;
delete []strUnicode;
}
一定要返回WCHAR 或wchar_t類型,否則有些字符就會(huì)變成“?”,Unicode(UCS-2)是2個(gè)字節(jié)寬
2,Unicode轉(zhuǎn)化為UTF8,inline同上意義
inline char *UnicodeToUTF8(const WCHAR* pText) throw()
{
int i= WideCharToMultiByte(CP_UTF8