http://www.sowang.com 2006年7月10日 來源:計(jì)算機(jī)世界報(bào)
森、王偉/KMCenter
搜索引擎是一種依靠技術(shù)取勝的產(chǎn)品,搜索引擎的各個(gè)組成部分,包括頁面搜集器、索引器、檢索器等,都是搜索引擎產(chǎn)品提供商進(jìn)行比拼的著力點(diǎn)。
近幾年,搜索引擎的商業(yè)化取得了巨大的成功,如著名搜索引擎公司Google、Yahoo(本文中提到Y(jié)ahoo時(shí),特指英文Yahoo)、百度等紛紛成功上市,引發(fā)了眾多公司涉足于該領(lǐng)域,帶動(dòng)了人力、資本的大量投入,連軟件巨人Microsoft公司也禁不住誘惑積極打造自己的搜索引擎。但是,從性能上來說,目前的搜索引擎還不盡如人意,搜索返回的結(jié)果往往與用戶的檢索要求相去甚遠(yuǎn),有效性還不是很高。本文將對(duì)搜索引擎的工作原理及其實(shí)現(xiàn)技術(shù)進(jìn)行分析,從中可以了解限制搜索引擎用戶體驗(yàn)改善的因素到底有哪些。
搜索引擎的工作過程
大型互聯(lián)網(wǎng)搜索引擎的數(shù)據(jù)中心一般運(yùn)行數(shù)千臺(tái)甚至數(shù)十萬臺(tái)計(jì)算機(jī),而且每天向計(jì)算機(jī)集群里添加數(shù)十臺(tái)機(jī)器,以保持與網(wǎng)絡(luò)發(fā)展的同步。搜集機(jī)器自動(dòng)搜集網(wǎng)頁信息,平均速度每秒數(shù)十個(gè)網(wǎng)頁,檢索機(jī)器則提供容錯(cuò)的可縮放的體系架構(gòu)以應(yīng)對(duì)每天數(shù)千萬甚至數(shù)億的用戶查詢請(qǐng)求。企業(yè)搜索引擎可根據(jù)不同的應(yīng)用規(guī)模,從單臺(tái)計(jì)算機(jī)到計(jì)算機(jī)集群都可以進(jìn)行部署。
搜索引擎一般的工作過程是: 首先對(duì)互聯(lián)網(wǎng)上的網(wǎng)頁進(jìn)行搜集,然后對(duì)搜集來的網(wǎng)頁進(jìn)行預(yù)處理,建立網(wǎng)頁索引庫,實(shí)時(shí)響應(yīng)用戶的查詢請(qǐng)求,并對(duì)查找到的結(jié)果按某種規(guī)則進(jìn)行排序后返回給用戶。搜索引擎的重要功能是能夠?qū)ヂ?lián)網(wǎng)上的文本信息提供全文檢索。
圖1 搜索引擎的工作流程
搜索引擎通過客戶端程序接收來自用戶的檢索請(qǐng)求,現(xiàn)在最常見的客戶端程序就是瀏覽器,實(shí)際上它也可以是一個(gè)用戶開發(fā)的簡單得多的網(wǎng)絡(luò)應(yīng)用程序。用戶輸入的檢索請(qǐng)求一般是關(guān)鍵詞或者是用邏輯符號(hào)連接的多個(gè)關(guān)鍵詞,搜索服務(wù)器根據(jù)系統(tǒng)關(guān)鍵詞字典,把搜索關(guān)鍵詞轉(zhuǎn)化為wordID,然后在標(biāo)引庫(倒排文件)中得到docID列表,對(duì)docID列表中的對(duì)象進(jìn)行掃描并與wordID進(jìn)行匹配,提取滿足條件的網(wǎng)頁,然后計(jì)算網(wǎng)頁和關(guān)鍵詞的相關(guān)度,并根據(jù)相關(guān)度的數(shù)值將前K篇結(jié)果(不同的搜索引擎每頁的搜索結(jié)果數(shù)不同)返回給用戶,其處理流程如圖1所示。
圖2描述了一般搜索引擎的系統(tǒng)架構(gòu),其中包括頁面搜集器、索引器、檢索器、索引文件等部分,下面對(duì)其中的主要部分的功能實(shí)現(xiàn)進(jìn)行了介紹。
圖2 搜索引擎各個(gè)組成部分的關(guān)系
搜集器
搜集器的功能是在互聯(lián)網(wǎng)中漫游,發(fā)現(xiàn)并搜集信息,它搜集的信息類型多種多樣,包括HTML頁面、XML文檔、Newsgroup文章、FTP文件、字處理文檔、多媒體信息等。搜索器是一個(gè)計(jì)算機(jī)程序,其實(shí)現(xiàn)常常采用分布式和并行處理技術(shù),以提高信息發(fā)現(xiàn)和更新的效率。商業(yè)搜索引擎的搜集器每天可以搜集幾百萬甚至更多的網(wǎng)頁。搜索器一般要不停地運(yùn)行,要盡可能多、盡可能快地搜集互聯(lián)網(wǎng)上的各種類型的新信息。因?yàn)榛ヂ?lián)網(wǎng)上的信息更新很快,所以還要定期更新已經(jīng)搜集過的舊信息,以避免死鏈接和無效鏈接。另外,因?yàn)閃eb信息是動(dòng)態(tài)變化的,因此搜集器、分析器和索引器要定期更新數(shù)據(jù)庫,更新周期通常約為幾周甚至幾個(gè)月。索引數(shù)據(jù)庫越大,更新也越困難。
互聯(lián)網(wǎng)上的信息太多,即使功能強(qiáng)大的搜集器也不可能搜集互聯(lián)網(wǎng)上的全部信息。因此,搜集器采用一定的搜索策略對(duì)互聯(lián)網(wǎng)進(jìn)行遍歷并下載文檔,例如,一般采用以寬度優(yōu)先搜索策略為主、線性搜索策略為輔的搜索策略。
在搜集器實(shí)現(xiàn)時(shí),系統(tǒng)中維護(hù)一個(gè)超鏈隊(duì)列,或者堆棧,其中包含一些起始URL,搜集器從這些URL出發(fā),下載相應(yīng)的頁面,并從中抽取出新的超鏈加入到隊(duì)列或者堆棧中,上述過程不斷重復(fù)隊(duì)列直到堆棧為空。為提高效率,搜索引擎將Web空間按照域名、IP地址或國家域名進(jìn)行劃分,使用多個(gè)搜集器并行工作,讓每個(gè)搜索器負(fù)責(zé)一個(gè)子空間的搜索。為了便于將來擴(kuò)展服務(wù),搜集器應(yīng)能改變搜索范圍。
1.線性搜集策略
線形搜索策略的基本思想是從一個(gè)起始的IP地址出發(fā),按IP地址遞增的方式搜索后續(xù)的每一個(gè)IP地址中的信息,完全不考慮各站點(diǎn)的HTML文件中指向其他Web站點(diǎn)的超鏈地址。此策略不適用于大規(guī)模的搜索(主要原因在于IP可能是動(dòng)態(tài)的),但可以用于小范圍的全面搜索,利用此種策略的搜集器可以發(fā)現(xiàn)被引用較少或者還沒有被其他HTML文件引用的新HTML文件信息源。
2. 深度優(yōu)先搜集策略
深度優(yōu)先搜集策略是早期開發(fā)搜集器使用較多的一種方法,它的目的是要達(dá)到被搜索結(jié)構(gòu)的葉結(jié)點(diǎn)。深度優(yōu)先搜索順著HTML文件上的超鏈走到不能再深入為止,然后返回到上一個(gè)接點(diǎn)的HTML文件,再繼續(xù)選擇該HTML文件中的其他超鏈。當(dāng)不再有其他超鏈可選擇時(shí),說明搜索已經(jīng)結(jié)束。深度優(yōu)先搜索適宜遍歷一個(gè)指定的站點(diǎn)或者深層嵌套的HTML文件集,但對(duì)于大規(guī)模的搜索,由于Web結(jié)構(gòu)相當(dāng)深,也許永遠(yuǎn)也出不來了。
3. 寬度優(yōu)先搜集策略
寬度優(yōu)先搜集策略是先搜索同一層中的內(nèi)容,然后再繼續(xù)搜索下一層。假如一個(gè)HTML文件中有三個(gè)超鏈,選擇其中之一并處理相應(yīng)的HTML文件,然后返回并選擇剛才第一個(gè)網(wǎng)頁的第二個(gè)超鏈,處理相應(yīng)的HTML文件,再返回。一旦同一層上的所有超鏈都已被處理過,就可以開始在剛才處理過的HTML文件中搜索其余的超鏈。這樣保證了對(duì)淺層的首先處理,當(dāng)遇到一個(gè)無窮盡的深層分支時(shí),也就不會(huì)再陷進(jìn)去。寬度優(yōu)先搜集策略容易實(shí)現(xiàn)并被廣泛采用,但是需要花費(fèi)比較長的時(shí)間才能到達(dá)深層的HTML文件。
4. 收錄搜集策略
有些網(wǎng)頁可以通過用戶提交的方式進(jìn)行搜集,例如某些商業(yè)網(wǎng)站向搜索引擎發(fā)出收錄申請(qǐng),搜集器就可以定向搜集提交申請(qǐng)網(wǎng)站的網(wǎng)頁信息并加入到搜索引擎的索引數(shù)據(jù)庫中。
分析器
對(duì)搜集器搜集來的網(wǎng)頁信息或者下載的文檔一般要首先進(jìn)行分析,以用于建立索引,文檔分析技術(shù)一般包括: 分詞(有些僅從文檔某些部分抽詞,如Altavista)、過濾(使用停用詞表stoplist)、轉(zhuǎn)換(有些對(duì)詞條進(jìn)行單復(fù)數(shù)轉(zhuǎn)換、詞綴去除、同義詞轉(zhuǎn)換等工作),這些技術(shù)往往與具體的語言以及系統(tǒng)的索引模型密切相關(guān)。
索引器
索引器的功能是對(duì)搜索器所搜索的信息進(jìn)行分析處理,從中抽取出索引項(xiàng),用于表示文檔以及生成文檔庫的索引表。索引項(xiàng)有元數(shù)據(jù)索引項(xiàng)和內(nèi)容索引項(xiàng)兩種: 元數(shù)據(jù)索引項(xiàng)與文檔的語意內(nèi)容無關(guān),如作者名、URL、更新時(shí)間、編碼、長度、鏈接流行度等等; 內(nèi)容索引項(xiàng)是用來反映文檔內(nèi)容的,如關(guān)鍵詞及其權(quán)重、短語、單字等等。內(nèi)容索引項(xiàng)可以分為單索引項(xiàng)和多索引項(xiàng)(或稱短語索引項(xiàng))兩種。單索引項(xiàng)對(duì)于英文來講是英語單詞,比較容易提取,因?yàn)閱卧~之間有天然的分隔符(空格); 對(duì)于中文等連續(xù)書寫的語言,必須進(jìn)行詞語的切分。在搜索引擎中,一般要給單索引項(xiàng)賦予一個(gè)權(quán)值,以表示該索引項(xiàng)對(duì)文檔的區(qū)分度,同時(shí)用來計(jì)算查詢結(jié)果的相關(guān)度。使用的方法一般有統(tǒng)計(jì)法、信息論法和概率法。短語索引項(xiàng)的提取方法有統(tǒng)計(jì)法、概率法和語言學(xué)法。
為了快速查找到特定的信息,建立索引數(shù)據(jù)庫是一個(gè)常用的方法,即將文檔表示為一種便于檢索的方式并存儲(chǔ)在索引數(shù)據(jù)庫中。索引數(shù)據(jù)庫的格式是一種依賴于索引機(jī)制和算法的特殊數(shù)據(jù)存儲(chǔ)格式。索引的質(zhì)量是Web信息檢索系統(tǒng)成功的關(guān)鍵因素之一。一個(gè)好的索引模型應(yīng)該易于實(shí)現(xiàn)和維護(hù)、檢索速度快、空間需求低。搜索引擎普遍借鑒了傳統(tǒng)信息檢索中的索引模型,包括倒排文檔、矢量空間模型、概率模型等。例如在矢量空間索引模型中,每個(gè)文檔d都表示為一個(gè)范化矢量V(d)=(t1,w1 (d)…ti,w1(d)…tn,wn(d))。其中ti為詞條項(xiàng),wi(d)為ti在d中的權(quán)值,一般被定義為ti在d中出現(xiàn)頻率tfi(d)的函數(shù)。
索引器的輸出是索引表,它一般使用倒排形式(Inversion List),即由索引項(xiàng)查找相應(yīng)的文檔。索引表也可能記錄索引項(xiàng)在文檔中出現(xiàn)的位置,以便檢索器計(jì)算索引項(xiàng)之間的相鄰或接近關(guān)系(proximity)。索引器可以使用集中式索引算法或分布式索引算法。當(dāng)數(shù)據(jù)量很大時(shí),必須實(shí)現(xiàn)實(shí)時(shí)索引(Instant Indexing),否則就無法跟上信息量急劇增加的速度。索引算法對(duì)索引器的性能(如大規(guī)模峰值查詢時(shí)的響應(yīng)速度)有很大的影響。一個(gè)搜索引擎的有效性在很大程度上取決于索引的質(zhì)量。
檢索器
檢索器的功能是根據(jù)用戶的查詢?cè)谒饕龓熘锌焖贆z出文檔,進(jìn)行文檔與查詢的相關(guān)度評(píng)價(jià),對(duì)將要輸出的結(jié)果進(jìn)行排序,并實(shí)現(xiàn)某種用戶相關(guān)性反饋機(jī)制。檢索器常用的信息檢索模型有集合理論模型、代數(shù)模型、概率模型和混合模型等多種,可以查詢到文本信息中的任意字詞,無論出現(xiàn)在標(biāo)題還是正文中。
檢索器從索引中找出與用戶查詢請(qǐng)求相關(guān)的文檔,采用與分析索引文檔相識(shí)的方法來處理用戶查詢請(qǐng)求。如在矢量空間索引模型中,用戶查詢q首先被表示為一個(gè)范化矢量V(q)=(t1,w1(q); …; ti,wi(q); …; tn,wn(q)),然后按照某種方法來計(jì)算用戶查詢與索引數(shù)據(jù)庫中每個(gè)文檔之間的相關(guān)度,而相關(guān)度可以表示為查詢矢量V(q)與文檔矢量V(d)之間的夾角余弦,最后將相關(guān)度大于閥值的所有文檔按照相關(guān)度遞減的順序排列并返還給用戶。當(dāng)然搜索引擎的相關(guān)度判斷并不一定與用戶的需求完全吻合。
用戶接口
用戶接口的作用是為用戶提供可視化的查詢輸入和結(jié)果輸出界面,方便用戶輸入查詢條件、顯示查詢結(jié)果、提供用戶相關(guān)性反饋機(jī)制等,其主要目的是方便用戶使用搜索引擎,高效率、多方式地從搜索引擎中得到有效的信息。用戶接口的設(shè)計(jì)和實(shí)現(xiàn)必須基于人機(jī)交互的理論和方法,以適應(yīng)人類的思維和使用習(xí)慣。
在查詢界面中,用戶按照搜索引擎的查詢語法制定待檢索詞條及各種簡單或高級(jí)檢索條件。簡單接口只提供用戶輸入查詢串的文本框,復(fù)雜接口可以讓用戶對(duì)查詢條件進(jìn)行限制,如邏輯運(yùn)算(與、或、非)、相近關(guān)系(相鄰、NEAR)、域名范圍(如edu、com)、出現(xiàn)位置(如標(biāo)題、內(nèi)容)、時(shí)間信息、長度信息等等。目前一些公司和機(jī)構(gòu)正在考慮制定查詢選項(xiàng)的標(biāo)準(zhǔn)。
在查詢輸出界面中,搜索引擎將檢索結(jié)果展現(xiàn)為一個(gè)線性的文檔列表,其中包含了文檔的標(biāo)題、摘要、快照和超鏈等信息。由于檢索結(jié)果中相關(guān)文檔和不相關(guān)文檔相互混雜,用戶需要逐個(gè)瀏覽以找出所需文檔。
搜索引擎的中文分詞技術(shù)
中文自動(dòng)分詞是網(wǎng)頁分析的基礎(chǔ)。在網(wǎng)頁分析的過程中,中文與英文的處理方式是不同的,這是因?yàn)橹形男畔⑴c英文信息有一個(gè)明顯的差別: 英文單詞之間有空格,而中文文本中詞與詞之間沒有分割符。這就要求在對(duì)中文網(wǎng)頁進(jìn)行分析之前,先要將網(wǎng)頁中的句子切割成一個(gè)個(gè)的詞的序列,這就是中文分詞。中文自動(dòng)分詞涉及到許多自然語言處理技術(shù)和評(píng)價(jià)標(biāo)準(zhǔn),在搜索引擎中,我們主要關(guān)心中文自動(dòng)分詞的速度和準(zhǔn)確度。分詞準(zhǔn)確性對(duì)搜索引擎來說十分重要,但如果分詞速度太慢,即使準(zhǔn)確性再高,對(duì)于搜索引擎來說也是不可用的,因?yàn)樗阉饕嫘枰幚頂?shù)以億計(jì)的網(wǎng)頁,如果分詞耗用的時(shí)間過長,會(huì)嚴(yán)重影響搜索引擎內(nèi)容更新的速度。因此,搜索引擎對(duì)分詞的準(zhǔn)確性和速度都提出了很高的要求。
目前,中文自動(dòng)分詞比較成熟的技術(shù)是基于分詞詞典的機(jī)械分詞方法。這種方法是按照一定的策略將要分析的漢字串與詞典中的詞條進(jìn)行匹配。根據(jù)匹配策略的不同,機(jī)械分詞方法又有如下幾種算法: 正向最大匹配算法、逆向最大匹配算法、最少分詞算法等。這種方法的優(yōu)點(diǎn)是分詞的速度快,準(zhǔn)確度有一定的保證,但對(duì)未登錄詞的處理效果較差。實(shí)驗(yàn)結(jié)果表明: 正向最大匹配的錯(cuò)誤率為1/169左右,逆向最大匹配的錯(cuò)誤率為1/245左右。另一種比較常用的中文自動(dòng)分詞方法是基于統(tǒng)計(jì)的分詞方法,這種方法是對(duì)語料中的字組頻度進(jìn)行統(tǒng)計(jì),不需要切分詞典,因此也稱為無詞典分詞方法。但該方法經(jīng)常把不是詞的常用字組當(dāng)成詞,對(duì)常用詞的識(shí)別精度較差,時(shí)空開銷也比較大。在搜索引擎領(lǐng)域的實(shí)際應(yīng)用中,一般將機(jī)械分詞方法與統(tǒng)計(jì)分詞方法相結(jié)合,先進(jìn)行串匹配分詞,然后使用統(tǒng)計(jì)方法識(shí)別一些未登錄的新詞,這樣既發(fā)揮了匹配分詞速度快、效率高的優(yōu)勢(shì),又利用了統(tǒng)計(jì)分詞中新詞自動(dòng)識(shí)別和自動(dòng)消除分詞歧義的特點(diǎn)。
分詞詞典是影響中文自動(dòng)分詞的一個(gè)重要因素,其規(guī)模一般在6萬條詞左右,詞典太大或太小都是不合適的; 辭典太小,有些詞切分不出來,辭典太大,切分過程中起義現(xiàn)象將大大增加,同樣影響分詞的精度。因此,分詞詞典中詞條的選擇是非常嚴(yán)格的。對(duì)于不斷出現(xiàn)新詞的網(wǎng)絡(luò)領(lǐng)域,僅僅使用6萬條詞左右的分詞詞典是不夠的,但隨意向分詞詞典中加入新詞將導(dǎo)致分詞精度下降,一般的解決方法是使用輔助詞典,其規(guī)模在50萬詞條左右。另外,中文自動(dòng)分詞的難點(diǎn)在于分詞歧義的處理和未登錄詞的識(shí)別,如何處理這兩個(gè)問題一直是該領(lǐng)域研究的熱點(diǎn)。
1. 歧義處理
歧義是指可能有兩種或者更多的切分方法。例如: “表面的”這個(gè)詞組,因?yàn)?#8220;表面”和“面的”都是詞,那么這個(gè)短語就可以分成“表面+的”和“表+面的”。這種稱為交叉歧義。像這種交叉歧義十分常見,“化妝和服裝”可以分成“化妝+和+服裝”或者“化妝+和服+裝”。由于沒有人的知識(shí)去理解,計(jì)算機(jī)很難知道到底哪個(gè)方案正確。
交叉歧義相對(duì)組合歧義來說是還算比較容易處理,組合歧義就必須根據(jù)整個(gè)句子來判斷了。
例如,在句子“這個(gè)門把手壞了”中,“把手”是個(gè)詞,但在句子“請(qǐng)把手拿開”中,“把手”就不是一個(gè)詞; 在句子“將軍任命了一名中將”中,“中將”是個(gè)詞,但在句子“產(chǎn)量三年中將增長兩倍”中,“中將”就不再是詞。這些詞計(jì)算機(jī)又如何去識(shí)別?
即使交叉歧義和組合歧義計(jì)算機(jī)都能解決的話,在歧義中還有一個(gè)難題,是真歧義。真歧義意思是給出一句話,由人去判斷也不知道哪個(gè)應(yīng)該是詞、哪個(gè)應(yīng)該不是詞。例如: “乒乓球拍賣完了”,可以切分成“乒乓+球拍+賣+完+了”、也可切分成“乒乓球+拍賣+完+了”,如果沒有上下文其他的句子,恐怕誰也不知道“拍賣”在這里算不算一個(gè)詞。
對(duì)歧義現(xiàn)象的處理方法一般采用類似于動(dòng)態(tài)規(guī)劃的算法將歧義問題的求解轉(zhuǎn)化為一個(gè)優(yōu)化問題的求解。在求解過程中,一般使用詞頻或概率等輔助信息求得一個(gè)最大可能的分詞結(jié)果,這個(gè)結(jié)果在某種意義下是最佳的。
2. 未登錄詞處理
未登錄詞就是分詞詞典中沒有的詞,也稱為新詞。最典型的是人名、地名、專業(yè)術(shù)語等。例如,人可以很容易理解句子“王軍虎去廣州了”中,“王軍虎”是個(gè)詞,因?yàn)槭且粋€(gè)人的名字,但要是讓計(jì)算機(jī)去識(shí)別就困難了。如果把“王軍虎”作為一個(gè)詞收錄到字典中去,全世界有那么多名字,而且每時(shí)每刻都有新增的人名,收錄這些人名本身就是一項(xiàng)巨大的工程。即使這項(xiàng)工作可以完成,還是會(huì)存在問題,例如: 在句子“王軍虎頭虎腦”中的,“王軍虎”還能不能算詞?
未登錄詞中除了人名以外,還有機(jī)構(gòu)名、地名、產(chǎn)品名、商標(biāo)名、簡稱、省略語等都是很難處理的問題,而且這些又正好是人們經(jīng)常使用的詞,因此對(duì)于搜索引擎來說,分詞系統(tǒng)中的新詞識(shí)別十分重要。目前,對(duì)未登錄詞的處理一般采用統(tǒng)計(jì)的方法,首先從語料中統(tǒng)計(jì)出出現(xiàn)頻率較高的字組,然后按照某種規(guī)則把它們作為新詞添加到輔助詞典中。
目前,中文自動(dòng)分詞技術(shù)在搜索引擎中已經(jīng)得到廣泛應(yīng)用,分詞準(zhǔn)確度已經(jīng)達(dá)到96%以上,但是在對(duì)大規(guī)模網(wǎng)頁進(jìn)行分析處理的時(shí)候,現(xiàn)有的中文自動(dòng)分詞技術(shù)還存在許多不足,例如上面提到的歧義問題和未登錄詞的處理問題等。因此,國內(nèi)外的科研院校,如北大、清華、中科院、北京語言學(xué)院、東北大學(xué)、IBM研究院、微軟中國研究院等都一直關(guān)注并研究中文自動(dòng)分詞技術(shù),這主要是因?yàn)榫W(wǎng)絡(luò)上的中文信息越來越多,對(duì)網(wǎng)絡(luò)上的中文信息的處理必將成為一個(gè)巨大的產(chǎn)業(yè)和廣闊的市場(chǎng),存在無限的商機(jī)。但是,中文自動(dòng)分詞技術(shù)要想更好地服務(wù)于網(wǎng)絡(luò)中文信息的處理并形成產(chǎn)品,還要在基礎(chǔ)研究方面和系統(tǒng)的集成方面做許多工作。
搜索引擎面臨的挑戰(zhàn)
目前的搜索引擎不可能做到“博大精深”,這是因?yàn)樗鼈兪敲艿膬蓚€(gè)方面,不可兼得。隨著互聯(lián)網(wǎng)信息的急劇增長,關(guān)于搜索引擎的“博大”越來越難實(shí)現(xiàn),從利用信息的角度也完全沒有必要,“精深”反而是人們?cè)絹碓街匾暡⒆非蟮闹笜?biāo)。另外,多層次的搜索服務(wù)體系遠(yuǎn)遠(yuǎn)沒有建立起來,傳統(tǒng)搜索重導(dǎo)航作用、輕精準(zhǔn)信息服務(wù),就像行人問路,行人需要的不僅僅是方向,還要知道具體的路標(biāo)指示。
現(xiàn)在人們經(jīng)常談?wù)撓乱淮阉饕?,那么,下一代搜索引擎與第二代搜索引擎有什么不同?又有什么關(guān)系?它應(yīng)該包括哪些功能?這些都是應(yīng)該回答的問題,但答案是眾說紛紜。也許下一代搜索引擎融入了更強(qiáng)勁的智能化、人機(jī)交互等方法來改善相關(guān)度的計(jì)算,也許下一代搜索引擎不僅僅運(yùn)行在大規(guī)模服務(wù)器上,更有可能的是運(yùn)行在共享計(jì)算資源的個(gè)人電腦集群上,或者植入“搜索芯片”中,也許其索引庫的邊界已經(jīng)模糊、也許更加清晰,也許當(dāng)下搜索巨頭通過資金、品牌等人為地不斷樹立的商業(yè)壁壘,終究抵擋不住創(chuàng)新搜索技術(shù)的顛覆,正如當(dāng)初Google將Altavista無聲地瓦解一樣。
——————————————————————————
[相關(guān)鏈接]
搜索引擎的技術(shù)流派
搜索引擎的技術(shù)流派可以分為三類:第一類是利用計(jì)算機(jī)程序自動(dòng)進(jìn)行信息處理的自動(dòng)化派,其典型代表是Google以及Ghunt等;第二類是以人工進(jìn)行信息分類處理為主的人力加工派,這方面的典型代表是早期的Yahoo,正在興起的Web 2.0、網(wǎng)摘等社區(qū)化搜索是這一流派的新發(fā)展;第三類是強(qiáng)調(diào)智能化人機(jī)交互、協(xié)同的融合派,目前英文Yahoo的搜索引擎在發(fā)展這方面的技術(shù),MSN Live也顯示出其更加重視融合性的技術(shù),聯(lián)索IFACE專業(yè)搜索融入了用戶知識(shí)和機(jī)器學(xué)習(xí)方法,可以看做是融合派在中文搜索引擎方面的典型代表。
如果按照網(wǎng)頁庫的容量、相關(guān)度計(jì)算技術(shù)、用戶搜索體驗(yàn)以及商業(yè)模式等方面來劃分,到目前為止,搜索引擎的發(fā)展大約經(jīng)歷了兩代。第一代搜索引擎(1994年~1997年)的索引網(wǎng)頁量一般都在數(shù)百萬量級(jí)左右,采用全文檢索技術(shù)和分布式并行運(yùn)算技術(shù),但極少重新搜集網(wǎng)頁并去刷新索引,而且其檢索速度較慢,一般都要等待10秒甚至更長的時(shí)間,同時(shí)承受的檢索請(qǐng)求也受到很大限制,商業(yè)模式處于探索期并且尚未成型。
第二代搜索引擎(1998年至今)大多采用分布式協(xié)同處理方案,其網(wǎng)頁索引庫一般都在數(shù)千萬個(gè)網(wǎng)頁量級(jí)甚至更多,采用可伸縮的索引庫架構(gòu),每天能夠響應(yīng)數(shù)千萬次甚至數(shù)以億計(jì)的用戶檢索請(qǐng)求。1997年11月,當(dāng)時(shí)最先進(jìn)的幾個(gè)搜索引擎宣稱能建立1億數(shù)量級(jí)的網(wǎng)頁索引。以Google為代表的第二代搜索引擎通過鏈接分析和點(diǎn)擊分析(網(wǎng)頁流行度)方法來計(jì)算(網(wǎng)頁權(quán)威性)相關(guān)度取得了巨大的成功。另外,以自然語言進(jìn)行問題解答的搜索引擎在某種程度上改善了用戶體驗(yàn),更重要的是第二代搜索引擎奠定了目前搜索引擎普遍采用的成熟商業(yè)模式,如Google、Overture、百度等收費(fèi)搜索服務(wù)均受益于此商業(yè)模式。
相關(guān)名詞解釋
全文搜索引擎 是由一個(gè)稱為蜘蛛(Spider)的機(jī)器人程序以某種策略自動(dòng)地在互聯(lián)網(wǎng)中搜集和發(fā)現(xiàn)信息,由索引器為搜集到的信息建立網(wǎng)頁索引數(shù)據(jù)庫,由檢索器根據(jù)用戶輸入的查詢條件檢索索引庫,并將查詢結(jié)果返回給用戶。服務(wù)方式是面向網(wǎng)頁的全文檢索服務(wù)。
目錄索引搜索引擎 主要以人工方式搜集信息,由編輯人員查看信息之后,人工形成信息摘要,并將信息置于事先確定的分類框架中。信息大多面向網(wǎng)站,提供目錄瀏覽服務(wù)和直接檢索服務(wù)。用戶完全可以不用關(guān)鍵詞(Keywords)進(jìn)行查詢,僅靠分類目錄也可找到需要的信息。
元搜索引擎 是指在統(tǒng)一的用戶查詢界面與信息反饋的形式下,共享多個(gè)搜索引擎的資源庫為用戶提供信息服務(wù)的系統(tǒng)。元搜索引擎是借助于其他搜索引擎進(jìn)行工作,沒有自己的索引庫,它是將用戶的查詢請(qǐng)求同時(shí)向多個(gè)搜索引擎遞交,將返回的結(jié)果進(jìn)行重復(fù)排除、重新排序等處理后,作為自己的結(jié)果返回給用戶。
自動(dòng)分類技術(shù) 是計(jì)算機(jī)根據(jù)分類標(biāo)準(zhǔn)自動(dòng)將文檔歸類到已經(jīng)存在的類別體系(或者主題)下的某一個(gè)具體類別中。目前自動(dòng)分類并不能完全代替人工所做的相關(guān)工作,只是提供了一個(gè)花費(fèi)較少的可選擇方法。
文本聚類技術(shù) 是利用計(jì)算機(jī)將已經(jīng)存在的大量文本(很多文檔)進(jìn)行分組的全自動(dòng)處理過程。聚類可以提供對(duì)一個(gè)大的文本集內(nèi)容的概況了解,可以識(shí)別隱藏的共同點(diǎn),可以便捷地瀏覽相近或相關(guān)的文本。
網(wǎng)文摘錄 又稱網(wǎng)摘,它具有對(duì)內(nèi)容頁的收藏、分類、摘錄、加注標(biāo)簽、保存到信息庫、信息庫共享等功能,主要是為了滿足用戶閱讀網(wǎng)絡(luò)內(nèi)容和信息知識(shí)積累的需要。
(計(jì)算機(jī)世界報(bào) 2006年06月12日 第22期 B12、B13、B14)