1. 前言
7 N) U. z& C# O/ k2 f/ X" T( X ]: a8 N6 O0 \ 1.1 應用背景
6 I+ x/ V e+ ?9 k% C" @ D$ x8 ^; i: n5 ]隨著我國zhengfu和企業信息化的快速普及和發展,來自于供應鏈、企業生產系統、辦公自動化(或公文行文)系統、人事績效系統、財務管理系統等無一不在積累著各類數據。不僅如此,來自于企業門戶網站、通過各種手持移動設備傳遞的會議通知、保存在業務員筆記本和PDA中的離線產品報價和短期個人銷售信息也不一而足。可以說信息無處不在、無時不在、無設備不在,但是它們是否可以在您的手中,即zhengfu和企業的信息系統是否可以把員工需要的信息呈送到他們的指尖之下,這恐怕是另一回事了。信息化普遍實施后,數據獲取方式、獲取手段的局限,是國內信息化建設主要面臨的尷尬現狀。
6 Z9 F& r6 K3 D& F
圖1:Your Data,Any Where、Any Time、Any Device. But not on your finger.
1.2 主要檢索技術的區別
) s- d; p) S3 f1 d7 M* @& F$ m0 C. B% @7 h
有了數據但是沒有被使用,那么這些數據不應該被稱為信息。它們無非是不斷充斥設備和網絡的比特而已,但是如何把數據提供給必要的人員,檢索技術是其中非常有效的途徑之一。本文筆者主要基于微軟平臺,針對SQL Server 2005提供的全文檢索技術進行介紹。與關系數據查詢、多維數據庫查詢和基于XML的XQuery、XPath不同,全文檢索技術主要處理對象是基于超大數據量的文本數據和結構化的二進制數據上類似LIKE的模糊查詢。主要區別見下表。
|
關系數據庫查詢 |
多維數據查詢 |
XML查詢 |
全文檢索 |
檢索技術 |
SQL |
MDX |
XQuery、XPath |
SQL (extension) |
主要處理對象 |
關系二維數據 |
結構化多維數據 |
層次型數據 |
大容量二維和層次型數據的模糊檢索 |
主要應用領域 |
一般的OLTP類應用 |
一般的OLAP類分析型應用 |
面向Internet、Intranet的松散耦合SOA應用 |
企業內部知識管理類應用 |
索引 |
大量使用非聚簇索引,一般保存在數據庫中。 |
通過層次型、保存中間結果的方式,通過不同的軸向快速定位信息剖面。 |
基于XPath的索引,索引一般保存在數據庫中。 |
基于關鍵字的索引,保存在文件系統中。每個表僅支持一個索引。 |
表1:全文檢索與關系數據庫查詢、多維數據查詢、XML查詢的對比