1. 前言
7 N) U. z& C# O/ k2 f/ X" T( X ]: a8 N6 O0 \ 1.1 應用背景
6 I+ x/ V e+ ?9 k% C" @ D$ x8 ^; i: n5 ]隨著我國zhengfu和企業(yè)信息化的快速普及和發(fā)展,來自于供應鏈、企業(yè)生產(chǎn)系統(tǒng)、辦公自動化(或公文行文)系統(tǒng)、人事績效系統(tǒng)、財務管理系統(tǒng)等無一不在積累著各類數(shù)據(jù)。不僅如此,來自于企業(yè)門戶網(wǎng)站、通過各種手持移動設備傳遞的會議通知、保存在業(yè)務員筆記本和PDA中的離線產(chǎn)品報價和短期個人銷售信息也不一而足。可以說信息無處不在、無時不在、無設備不在,但是它們是否可以在您的手中,即zhengfu和企業(yè)的信息系統(tǒng)是否可以把員工需要的信息呈送到他們的指尖之下,這恐怕是另一回事了。信息化普遍實施后,數(shù)據(jù)獲取方式、獲取手段的局限,是國內(nèi)信息化建設主要面臨的尷尬現(xiàn)狀。
6 Z9 F& r6 K3 D& F

圖1:Your Data,Any Where、Any Time、Any Device. But not on your finger.
1.2 主要檢索技術的區(qū)別
) s- d; p) S3 f1 d7 M* @& F$ m0 C. B% @7 h
有了數(shù)據(jù)但是沒有被使用,那么這些數(shù)據(jù)不應該被稱為信息。它們無非是不斷充斥設備和網(wǎng)絡的比特而已,但是如何把數(shù)據(jù)提供給必要的人員,檢索技術是其中非常有效的途徑之一。本文筆者主要基于微軟平臺,針對SQL Server 2005提供的全文檢索技術進行介紹。與關系數(shù)據(jù)查詢、多維數(shù)據(jù)庫查詢和基于XML的XQuery、XPath不同,全文檢索技術主要處理對象是基于超大數(shù)據(jù)量的文本數(shù)據(jù)和結構化的二進制數(shù)據(jù)上類似LIKE的模糊查詢。主要區(qū)別見下表。
|
關系數(shù)據(jù)庫查詢 |
多維數(shù)據(jù)查詢 |
XML查詢 |
全文檢索 |
檢索技術 |
SQL |
MDX |
XQuery、XPath |
SQL (extension) |
主要處理對象 |
關系二維數(shù)據(jù) |
結構化多維數(shù)據(jù) |
層次型數(shù)據(jù) |
大容量二維和層次型數(shù)據(jù)的模糊檢索 |
主要應用領域 |
一般的OLTP類應用 |
一般的OLAP類分析型應用 |
面向Internet、Intranet的松散耦合SOA應用 |
企業(yè)內(nèi)部知識管理類應用 |
索引 |
大量使用非聚簇索引,一般保存在數(shù)據(jù)庫中。 |
通過層次型、保存中間結果的方式,通過不同的軸向快速定位信息剖面。 |
基于XPath的索引,索引一般保存在數(shù)據(jù)庫中。 |
基于關鍵字的索引,保存在文件系統(tǒng)中。每個表僅支持一個索引。 |
表1:全文檢索與關系數(shù)據(jù)庫查詢、多維數(shù)據(jù)查詢、XML查詢的對比