九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費電子書等14項超值服

開通VIP
語義搜索引擎綜述

1.網(wǎng)絡搜索引擎的現(xiàn)狀
      搜索引擎在互聯(lián)網(wǎng)的重要地位由來已久。Yahoo 作為門戶網(wǎng)站奇跡般崛起所依靠的正是搜索引擎,Google 也以搜索引擎的技術創(chuàng)新、競價排名和專業(yè)風格創(chuàng)造了新的奇跡。在國內(nèi),百度也在很短的時間里憑借搜索引擎取得很大成功。

搜索引擎技術及業(yè)務模式的持續(xù)創(chuàng)新,不僅為互聯(lián)網(wǎng)注入了活力,而且其自身的價值正被重新審視和評估?;ヂ?lián)網(wǎng)的發(fā)展使得信息短缺的問題被信息泛濫所取代,世界也已從信息時代走進信息經(jīng)濟時代,這兩者的區(qū)別在于,前者強調(diào)信息本身的價值,只要解決信息資源短缺就會帶來價值的提升;后者認為信息并不稀缺,只有通過對信息的甄別、加工提純和挖掘才能帶來價值的提升。

據(jù)中國國家互聯(lián)網(wǎng)中心(CNNIC)2005年1月發(fā)布的第15次互聯(lián)網(wǎng)發(fā)展統(tǒng)計報告[[1]],我國的網(wǎng)絡用戶有9400萬人,比2004年6月發(fā)布的14次報告又增加了700萬。在用戶經(jīng)營使用的網(wǎng)絡服務中,搜索引擎僅次于電子郵箱排在第2位。有98.5%的用戶上網(wǎng)最主要的是獲取信息,通過搜索引擎獲取信息的占70.7%,搜索引擎成為未知狀態(tài)下發(fā)現(xiàn)有效信息的最有效方式。

2.網(wǎng)絡搜索引擎的工作原理
搜索引擎的原理,可以看作三步:

a) 從互聯(lián)網(wǎng)上抓取網(wǎng)頁;

b) 建立索引數(shù)據(jù)庫;

c) 在索引數(shù)據(jù)庫中搜索排序。

1. 從互聯(lián)網(wǎng)上抓取網(wǎng)頁

利用能夠從互聯(lián)網(wǎng)上自動收集網(wǎng)頁的Spider系統(tǒng)程序,自動訪問互聯(lián)網(wǎng),并沿著任何網(wǎng)頁中的所有URL爬到其它網(wǎng)頁,重復這過程,并把爬過的所有網(wǎng)頁收集回來。

2. 建立索引數(shù)據(jù)庫

由分析索引系統(tǒng)程序?qū)κ占貋淼木W(wǎng)頁進行分析,提取相關網(wǎng)頁信息(包括網(wǎng)頁所在URL、編碼類型、頁面內(nèi)容包含的所有關鍵詞、關鍵詞位置、生成時間、大小、與其它網(wǎng)頁的鏈接關系等),根據(jù)一定的相關度算法進行大量復雜計算,得到每一個網(wǎng)頁針對頁面文字中及超鏈中每一個關鍵詞的相關度(或重要性),然后用這些相關信息建立網(wǎng)頁索引數(shù)據(jù)庫。

3. 在索引數(shù)據(jù)庫中搜索排序

當用戶輸入關鍵詞搜索后,由搜索系統(tǒng)程序從網(wǎng)頁索引數(shù)據(jù)庫中找到符合該關鍵詞的所有相關網(wǎng)頁。因為所有相關網(wǎng)頁針對該關鍵詞的相關度早已算好,所以只需按照現(xiàn)成的相關度數(shù)值排序,相關度越高,排名越靠前。最后,由頁面生成系統(tǒng)將搜索結果的鏈接地址和頁面內(nèi)容摘要等內(nèi)容組織起來返回給用戶。

3.網(wǎng)絡搜索引擎的評價指標
評價搜索引擎的主要指標有查全率、查準率、響應時間、覆蓋范圍、用戶使用方便性等等。

1.      查全率(Recall)

查全率又叫召回率,是指檢索出的相關文檔占全部相關文檔的比率。即用戶通過搜索引擎所獲取的有用信息與整個Internet中相關信息的比率。

2.      查準率(Precision)

查準率是指獲取的相關文檔與獲取文檔的比率。即用戶通過搜索引擎所獲取的真正是用戶需要的信息占獲取信息的比率。搜索引擎的查準率是個復雜的概念,一方面表示搜索引擎對搜索結果的排序能力,另一方面卻體現(xiàn)了搜索引擎對垃圾網(wǎng)頁的抗干擾能力。

3.      響應時間(Response Time)

響應時間是指用戶發(fā)出查詢請求后到看到查詢結果的這段時間。

4.      覆蓋范圍(Coverage)

覆蓋范圍是指搜索引擎索引的Web頁面占整個Internet中頁面的比例。

5.      用戶方便性(Convenience)

用戶方便性包括查詢接口是否直觀、易于使用、查詢語法是否豐富,顯示結果是否易于查看等。

4.網(wǎng)絡搜索引擎的主要技術
網(wǎng)絡搜索引擎做為信息檢索系統(tǒng)的一個分支,理所當然的涉及到信息檢索方面的技術,同時它做為一個獨立、成熟的領域也有自己的技術空間:

  

1. 目錄檢索和全文檢索

         傳統(tǒng)的搜索引擎一般使用兩種技術來實現(xiàn)信息檢索:

         一是使用網(wǎng)站分類技術實現(xiàn)目錄檢索,即把網(wǎng)站進行樹狀的歸類,登陸的網(wǎng)站屬于至少一個類別,對每個站點都有簡略的描述。Yahoo采用了這種方法。為了分類科學準確,需要有一支各科人才組成的維護隊伍。

         二是使用全文檢索技術。全文檢索技術處理的對象是文本,它能夠?qū)Υ罅课臋n建立由字(詞)到文檔的倒排索引,在此基礎上,用戶使用關鍵詞來對文檔進行查詢時,系統(tǒng)將給用戶返回該關鍵詞的網(wǎng)頁。

  

2. 索引文件結構

         全文檢索的兩個關鍵技術是索引和檢索。檢索又是基于所建立的索引結構進行的。索引文件主要分為正向索引和倒排索引。正向索引是基于文檔的,每一個文檔對應一個索引文件,其中記錄著這個文檔中出現(xiàn)的詞。倒排索引是基于詞匯表的,每一個特征詞對應一個倒排索引,其中記錄著所有出現(xiàn)過這個詞的文檔。目前,技術比較成熟、也是公認效率較高的索引存儲結構是倒排文件。需要明確的是,中文的構詞方式、句法、語法都與英文有很大區(qū)別,因此,不同于英文全文檢索的索引方法,中文全文檢索中主要的建立索引方法是字索引和詞索引。字索引保證了高的召回率,不會出現(xiàn)漏查錯誤,但是會出現(xiàn)多查和誤查。檢索結果中會出現(xiàn)不少與檢索意圖無關的條目。另外,基于字索引的全文檢索的檢索效率也比較低。而詞索引保證了較高的查準率和檢索效率,但是由于中文分詞能力的局限,導致基于詞索引的全文檢索必定會存在漏檢情況。另外,對于未登陸詞,詞索引顯得力不從心?,F(xiàn)存比較實用的中文信息檢索系統(tǒng)一般都結合使用了字詞混合索引,或者擴展的詞索引,來保證召回率和查準率。

         網(wǎng)絡搜索引擎由于各自的策略不同,在選擇索引對象的內(nèi)容時也有不同。有些搜索引擎對于信息庫中的頁面建立全文索引,有些只建立摘要部分,或者每個段落前面部分的索引,還有些搜索引擎(如Google)建立索引的時候,同時考慮超文本的不同標記所表示的不同含義。如粗體、大字體顯示的東西往往比較重要;放在錨鏈中的信息往往是它所指向頁面的信息的概括,所以用它來作為它所指向的頁面的重要信息。Google,Infoseek還在建立索引的過程中收集頁面中的超鏈接。這些超鏈接反映了收集到的信息之間的空間結構。利用這些結果信息可以提高頁面相關度判別時候的準確度。

  

3. 數(shù)據(jù)源文件的分布策略

         搜索引擎的數(shù)據(jù)源文件主要包括索引文件和原文檔。目前,數(shù)據(jù)源文件的分布策略主要有集中存放和分布式存放。文獻[2]指出Google就是采用了集群的方式集中存放數(shù)據(jù)源文件,事實上,幾乎所有的商業(yè)搜索引擎都采用集中存放的方式,這是因為分布式存放策略有一個硬傷,就是搜索請求從一個端點傳送到另外一個端點消耗的時間讓用戶難以忍受。但是,隨著互聯(lián)網(wǎng)上信息的急劇膨脹,改進后的分布式策略是最終的解決方案。

  

4. 索引大文件的存放策略

         倒排文件是一個大文件,這是因為倒排文件中存放的記錄(Hit)表示的是文檔中出現(xiàn)本特征詞的狀況。目前的商業(yè)搜索引擎的文檔集中的文檔數(shù)量非常之大,因此倒排文件的記錄數(shù)也會很大,最終導致倒排文件的尺寸非常大。

         對于大文件首先考慮的是壓縮,像是Google存放的索引文件就是經(jīng)過壓縮的。好的壓縮算法同時要求壓縮比盡可能高、查找壓縮文件容易、解壓縮時間短。即使壓縮之后的文件仍然大到不能以獨立的文件形式存放,目前有兩種分離大文件為多個小文件的策略:

         一是基于文檔集的分離。主要是將文檔集分成有限個子集,對于每一個子集建立各自的索引文件,檢索過程就演變?yōu)閷Χ鄠€文檔子集的檢索,最后做的合并處理。

         一是基于索引文件的分離。即是將索引大文件分為有限個子文件,并設計一張表記錄這種分離情況,當要檢索這個索引文件時就查找這張表,根據(jù)表的記錄去查找每一個子文件。文獻[3]指出Google將索引大文件分離為若干個小文件,每一個小文件都以獨立的linux文件存放,通過linux系統(tǒng)管理這些小文件,這正是這個策略的一種表現(xiàn)。

  

5.         排序算法

各種搜索引擎的技術改進和優(yōu)化,都直接反應到搜索結果的排序上。許多搜索引擎都在進一步研究新的排序方法,來提升客戶的滿意度。目前,不同搜索引擎基于不同的搜索策略設計有多種不同的排序算法,以Google為例,它采用很多種排序算法支持搜索結果,其中最典型的代表有PageRank和HillTop,這兩種都屬于超鏈接分析技術。

5.語義搜索的興起
目前實用化的信息檢索系統(tǒng)主要基于人工分類目錄或關鍵詞匹配。前者對海量信息資源的揭示的效率不高、深度有限;后者在信息的語義和語用的揭示上有局限性。信息檢索系統(tǒng)在智能處理能力上的缺乏,導致這些工具遠遠不能滿足用戶的需求。如何解決好諸如信息組織、知識表示、機器理解與人機交互等問題,對于提高信息利用的效率,是非常重要和迫切的。近年來,語義網(wǎng)的提出為解決這些問題提供了鍥機,由于語義網(wǎng)中的資源被結構化,能被計算機所理解和識別,這樣提供了改進傳統(tǒng)搜索技術的機會。語義檢索的目的是通過從語義網(wǎng)上獲取的數(shù)據(jù)增強并改進傳統(tǒng)的搜索結果(基于信息檢索技術)。它實現(xiàn)了用戶檢索請求的本體化,整個搜索引擎像領域?qū)<乙粯?,不僅給出查詢結果,還給出了與檢索請求相關的資源,大大提高檢索的精度和覆蓋率;實現(xiàn)了本體層次的檢索,突破了關鍵詞檢索局限于形式的固有缺陷。它的出現(xiàn)提高了用戶的滿意度,減少了不相關的返回結果,提高了檢索的精度和覆蓋率。

最初人們通過代表語義的HTML標簽來改造網(wǎng)頁,主要有GDA系統(tǒng)和
SHOE(SimpleHTMLOntologyExtensions)系統(tǒng)等。但這些系統(tǒng)的不足是僅能處理經(jīng)過HTML標簽改造的網(wǎng)頁。

XML是非常有前途的語言,因為它將網(wǎng)頁的內(nèi)容、結構和描述分離,并且非常適合知識的描述。但是XML通過它的句法結構僅能描述一些語義屬性。

語義網(wǎng)絡的建立使得以語義為基礎的搜索引擎同時可以建立起來。在語義搜索引擎中,每一個查詢都在一些本體的上下文范圍內(nèi)執(zhí)行,來自本體的一些指南可以提高檢索的準確性。在語義檢索中,使用的是概念匹配,即自動抽取文檔的概念,加以標引,用戶在系統(tǒng)的輔助下選用合適的詞語表達自己的信息需求,然后在兩者之間執(zhí)行概念匹配,即匹配在語義上相同、相近、相包含的詞語。

6.語義搜索當前的應用
當前基于ontology 的語義檢索系統(tǒng)已經(jīng)得到了廣泛的關注和應用,出現(xiàn)了一系列優(yōu)秀的應用系統(tǒng),其中典型的有兩個:SWOOGLE——語義網(wǎng)中的基于蜘蛛網(wǎng)的檢索系統(tǒng),系統(tǒng)從每個搜索到的文本中抽取本體,根據(jù)本體之間的相關度來比較文本之間的關系;TUCUXI(InTelligent Hunter Agent for Concept Understanding and LeXical ChaIning),該系統(tǒng)根據(jù)查找的本體在網(wǎng)頁上爬行,決定哪種網(wǎng)頁最滿足需求。特別的,TUCUXI 判斷文檔的相關性是同Map of Meanings 比較用戶所查詢的相關本體。Map of Meanings 語義豐富,用來對資源文本的表達。TUCUXI 采用了MOMIS 公用字典來表征用戶查詢的本體。在語義網(wǎng)中,基于Ontology 的語義檢索搜索引擎有SHOE、OntoBroker、OntoSeek、WebKB、Corese。

7.總結
語義搜索引擎是未來搜索引擎發(fā)展的方向,它的發(fā)展主要受限于語義web的發(fā)展以及自然語言處理技術。語義搜索引擎設計的最終目標是讓計算機具有人的智能,以解決問題的形式返回給用戶。語義搜索引擎設計的當前目標是讓計算機返回的結果更有針對性、準確性。

  

參考文獻:

[1] CNNIC第15次互聯(lián)網(wǎng)發(fā)展狀況報告

[[2]] Luiz André Barroso, Jeffrey Dean, Urs Hölzle. WEB SEARCH FOR A PLANET: THE GOOGLE CLUSTER ARCHITECTURE

[[3]] Sanjay Ghemawat, Howard Gobioff, and Shun-Tak Leung. The Google File System

本站僅提供存儲服務,所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權內(nèi)容,請點擊舉報。
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
搜索引擎的工作機制[圖]
Web搜索引擎技術綜述
Matrixjava大講壇之搜索引擎技術
搜索引擎在網(wǎng)絡信息挖掘中的應用 - 業(yè)界 - SOWANG 搜索愛好者論壇 - Power...
深網(wǎng)十大搜索引擎,能搜出谷歌都無法檢索的深度網(wǎng)頁
搜索引擎原理
更多類似文章 >>
生活服務
熱點新聞
分享 收藏 導長圖 關注 下載文章
綁定賬號成功
后續(xù)可登錄賬號暢享VIP特權!
如果VIP功能使用有故障,
可點擊這里聯(lián)系客服!

聯(lián)系客服