一、 搜索引擎的分類
獲得網(wǎng)站網(wǎng)頁資料,能夠建立數(shù)據(jù)庫并提供查詢的系統(tǒng),我們都可以把它叫做搜索引擎。按照工作原理的不同,可以把它們分為兩個基本類別:全文搜索引擎(Full Text Search Engine)和分類目錄(Directory)。
全文搜索引擎的數(shù)據(jù)庫是依靠一個叫“網(wǎng)絡(luò)機器人(Spider)”或叫“網(wǎng)絡(luò)蜘蛛(crawlers)”的軟件,通過網(wǎng)絡(luò)上的各種鏈接自動獲取大量網(wǎng)頁信息內(nèi)容,并按以定的規(guī)則分析整理形成的。Google、百度都是比較典型的全文搜索引擎系統(tǒng)。
分類目錄則是通過人工的方式收集整理網(wǎng)站資料形成數(shù)據(jù)庫的,比如雅虎中國以及國內(nèi)的搜狐、新浪、網(wǎng)易分類目錄。另外,在網(wǎng)上的一些導(dǎo)航站點,也可以歸屬為原始的分類目錄,比如“銀行之家”。
全文搜索引擎和分類目錄在使用上各有長短。全文搜索引擎因為依靠軟件進行,所以數(shù)據(jù)庫的容量非常龐大,但是,它的查詢結(jié)果往往不夠準確;分類目錄依靠人工收集和整理網(wǎng)站,能夠提供更為準確的查詢結(jié)果,但收集的內(nèi)容卻非常有限。為了取長補短,現(xiàn)在的很多搜索引擎,都同時提供這兩類查詢,一般對全文搜索引擎的查詢稱為搜索“所有網(wǎng)站”或“全部網(wǎng)站”,在網(wǎng)上,對這兩類搜索引擎進行整合,還產(chǎn)生了其它的搜索服務(wù),在這里,我們權(quán)且也把它們稱作搜索引擎,主要有這兩類:
⒈元搜索引擎(META Search Engine)。這類搜索引擎一般都沒有自己網(wǎng)絡(luò)機器人及數(shù)據(jù)庫,它們的搜索結(jié)果是通過調(diào)用、控制和優(yōu)化其它多個獨立搜索引擎的搜索結(jié)果并以統(tǒng)一的格式在同一界面集中顯示。元搜索引擎雖沒有“網(wǎng)絡(luò)機器人”或“網(wǎng)絡(luò)蜘蛛”,也無獨立的索引數(shù)據(jù)庫,但在檢索請求提交、檢索接口代理和檢索結(jié)果顯示等方面,均有自己研發(fā)的特色元搜索技術(shù)。比如“metaFisher元搜索引擎”,它就調(diào)用和整合了Google、Yahoo、AlltheWeb、百度和OpenFind等多家搜索引擎的數(shù)據(jù)。
⒉集成搜索引擎(All-in-One Search Page)。集成搜索引擎是通過網(wǎng)絡(luò)技術(shù),在一個網(wǎng)頁上鏈接很多個獨立搜索引擎,查詢時,點選或指定搜索引擎,一次輸入,多個搜索引擎同時查詢,搜索結(jié)果由各搜索引擎分別以不同頁面顯示,比如“網(wǎng)際瑞士軍刀”。
二、 搜索引擎的工作原理
全文搜索引擎的“網(wǎng)絡(luò)機器人”或“網(wǎng)絡(luò)蜘蛛”是一種網(wǎng)絡(luò)上的軟件,它遍歷Web空間,能夠掃描一定IP地址范圍內(nèi)的網(wǎng)站,并沿著網(wǎng)絡(luò)上的鏈接從一個網(wǎng)頁到另一個網(wǎng)頁,從一個網(wǎng)站到另一個網(wǎng)站采集網(wǎng)頁資料。它為保證采集的資料最新,還會回訪已抓取過的網(wǎng)頁。網(wǎng)絡(luò)機器人或網(wǎng)絡(luò)蜘蛛采集的網(wǎng)頁,還要有其它程序進行分析,根據(jù)一定的相關(guān)度算法進行大量的計算建立網(wǎng)頁索引,才能添加到索引數(shù)據(jù)庫中。我們平時看到的全文搜索引擎,實際上只是一個搜索引擎系統(tǒng)的檢索界面,當你輸入關(guān)鍵詞進行查詢時,搜索引擎會從龐大的數(shù)據(jù)庫中找到符合該關(guān)鍵詞的所有相關(guān)網(wǎng)頁的索引,并按一定的排名規(guī)則呈現(xiàn)給我們。不同的搜索引擎,網(wǎng)頁索引數(shù)據(jù)庫不同,排名規(guī)則也不盡相同,所以,當我們以同一關(guān)鍵詞用不同的搜索引擎查詢時,搜索結(jié)果也就不盡相同。
聯(lián)系客服