九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区

打開APP
userphoto
未登錄

開通VIP,暢享免費(fèi)電子書等14項(xiàng)超值服

開通VIP
Matrixjava大講壇之搜索引擎技術(shù)
農(nóng)民 - Javen- 19:50:30
  感謝大家支持!
  
  1、自由發(fā)言:大家悠著點(diǎn),不要太著急啊。剛開始請(qǐng)盡量由主講發(fā)言吧;
  
  2、一點(diǎn)限制:主講人與管理員的字體顏色為紅色,請(qǐng)大家使用黑色或者藍(lán)色,并且請(qǐng)大家
  字體不要超過5號(hào);  
crane- 19:50:39
  偶鼓掌先
老漁翁- 19:50:46
   
crane- 19:51:01
    
╃(Chris-- 19:51:05
  hi,各位,現(xiàn)在開始吧.
charbee- 19:51:06
  廣州好像已經(jīng)20:00啦
朱世杰℡- 19:51:27
  GG
農(nóng)民 - Javen- 19:51:33
  好了。  大家歡迎  chris ,  也感謝大家的支持! 
真神- 19:52:28
  歡迎
╃(Chris-- 19:52:31
  恩,多謝大家支持,我先自我介紹一下.我是chris,matrix打算在這個(gè)高手群里經(jīng)常展開一些專題性,技術(shù)含量比較高的專題討論,從來讓大家都能獲益。所以我今晚就拋磚引玉,希望以后大家也能踴躍報(bào)名.
╃(Chris-- 19:52:58
  術(shù)業(yè)有專攻,誰也不會(huì)是十全十美的高手,但是能夠把自己專長的東西拿出來和大家分享,是一件很令人開心的事情
阿古- 19:53:04
  鼓掌
nemo- 19:53:10
   
老漁翁- 19:53:19
   
冰云- 19:53:25
  別刷屏!
╃(Chris-- 19:53:29
  搜索引擎技術(shù)不是我的專業(yè),但是我的興趣,3年前我研究lucene源代碼從而對(duì)搜索引擎感
  興趣,從而進(jìn)入了這個(gè)領(lǐng)域。
╃(Chris-- 19:53:53
  我的專業(yè)是金融領(lǐng)域的一些算法研究和應(yīng)用,在香港,這方面比國內(nèi)還是要先進(jìn)一些,希
  望下次能有機(jī)會(huì)給大家講講這方面的技術(shù)。
╃(Chris-- 19:54:02
  言歸正傳,下面我們開始今天的專題討論。
╃(Chris-- 19:54:26
  我會(huì)從結(jié)構(gòu)上和方向上做一些介紹,至于詳細(xì)的算法, 今晚因?yàn)闀r(shí)間原因我就不講那么詳
  細(xì),具體有疑問大家在論壇發(fā)貼或者email和我聯(lián)系。
~~>.<~~- 19:55:12
  good
  !!
  
╃(Chris-- 19:55:19
  先大概介紹一些搜索引擎吧,這里指的搜索引擎是指類似于www.google.com,www.baidu.com
  這樣的搜索引擎.yahoo嚴(yán)格意義上,不具有一個(gè)完整的搜索引擎的全部東西.google是搜索
  引擎的典范.
~~>.<~~- 19:55:20
  有興趣。
╃(Chris-- 19:55:38
  我今晚會(huì)大概介紹一下一個(gè)完整的搜索引擎的架構(gòu)以及用到的關(guān)鍵技術(shù).
╃(Chris-- 19:55:53
  對(duì)一個(gè)搜索引擎來講, 比較傳統(tǒng)的架構(gòu)會(huì)是這樣的:
  crawler  -  index engine - search engine
~~>.<~~- 19:55:53
  怎么你打字超快啊。
  
crane- 19:55:58
  up一下
Server- 19:56:17
  不要說話,尊重一下
~~>.<~~- 19:56:22
   
~~>.<~~- 19:56:32
  比掌聲??!
KIKI- 19:56:55
  暈,不要說話,聽Chris大哥講
╃(Chris-- 19:56:58
  crawler就是一個(gè)不斷從網(wǎng)上將網(wǎng)頁抓下來的一個(gè)引擎. index engine是一個(gè)索引引擎.
  search engine就是檢索引擎.
╃(Chris-- 19:57:07
  下面,我們先從crawler開始講.
wuyu- 19:57:59
  呵,百度的spider,trs的雷達(dá),應(yīng)該都算crawler吧?
╃(Chris-- 19:58:18
  Crawler是一項(xiàng)比較復(fù)雜的技術(shù),Standford有一些博士畢業(yè)論文的主題就是Crawler的算法.
╃(Chris-- 19:58:45
  對(duì),但是就crawler來說,google無疑是做的最好的,具體也有很多數(shù)據(jù),包括覆蓋率,精確性等.
╃(Chris-- 19:59:18
  stanford有一下顎關(guān)于crawler的paper,大家可以訪問
  http://dbpubs.stanford.edu:8090/aux/index-en.html 里面有不少關(guān)于crawler的算法,
  以及google的crawler的一些原型算法,當(dāng)然現(xiàn)在的google的crawler遠(yuǎn)遠(yuǎn)要復(fù)雜的多.
wuyu- 19:59:55
  Crawler主要完成哪些工作?包不包括對(duì)html、script這類“無用”信息的處理?
  
╃(Chris-- 19:59:56
  就一個(gè)crawler來說,比較復(fù)雜的技術(shù)在于:
  
charbee- 20:00:01
  lucene跟google有什么關(guān)系嗎?
  問題我先mark一下,等下chris講完了,再問
╃(Chris-- 20:00:21
  有,lucene會(huì)在下面提到,lucene應(yīng)該屬于index engine部分的東西.
╃(Chris-- 20:00:27
  就是中間的這部分.
wuyu- 20:00:36
  lucene只是chris講的搜索引擎的一部分,負(fù)責(zé)全文檢索,而且lucene的切分詞是采用自動(dòng)
  切分詞技術(shù)的
  
  
  
  
  
  
wuyu- 20:00:57
  還是從crawler開始吧,不打岔了
╃(Chris-- 20:01:13
  好,wuyu的問題很好,一會(huì)我們?cè)儆懻撘幌路衷~這個(gè)東西.
╃(Chris-- 20:02:27
  繼續(xù)crawler的關(guān)鍵技術(shù):
  
  1.分布式,多線程抓取.任務(wù)的調(diào)度問題. 因?yàn)閷?duì)于成千上萬的網(wǎng)頁, 如何不重復(fù)抓取, 又
  不漏掉重要站點(diǎn), 是一個(gè)很關(guān)鍵的問題. 這里需要一個(gè)好的分布式算法,一個(gè)很好的任務(wù)
  調(diào)度機(jī)制。
  
  
╃(Chris-- 20:03:17
  具體的算法,這里就不聊了,每個(gè)算法都可以開一個(gè)專題來討論的,呵呵.
crane- 20:03:23
  支持打岔
朱世杰℡- 20:03:39
  能不能提一下那些算法
朱世杰℡- 20:04:34
  INTRO即可
charbee- 20:05:49
  lucene的最新版支持中文了嗎?
wuyu- 20:06:01
  先整體介紹吧,對(duì)各部分的著重點(diǎn)提一下,最后大家再對(duì)具體的某些點(diǎn)做提問,畢竟搜索
  引擎每一部分都可以開一大個(gè)專題來討論,在一個(gè)細(xì)節(jié)上陷進(jìn)去就難出來了
╃(Chris-- 20:06:02
  算法,沒有固定的名字,因?yàn)檫@是一個(gè)特殊的領(lǐng)域,但是對(duì)于調(diào)度算法的研究,會(huì)基于傳統(tǒng)的
  分布式調(diào)度算法來進(jìn)行.
KIKI- 20:06:18
  不支持吧,weblucene支持,也是開源項(xiàng)目
charbee- 20:06:42
  車東的開源,我知道。環(huán)境架不起來。
wuyu- 20:06:44
  看吧,一扯就扯遠(yuǎn)了吧。讓chris繼續(xù)吧
╃(Chris-- 20:07:19
  繼續(xù)crawler的關(guān)鍵技術(shù):
  2.網(wǎng)頁重要性的評(píng)估, 這個(gè)很重要,因?yàn)閏rawler不會(huì)把所有網(wǎng)頁都抓下來,只會(huì)抓20%的網(wǎng)
  頁下來,所以必須評(píng)估網(wǎng)頁的重要性,如何評(píng)估就顯得很重要.
╃(Chris-- 20:07:48
  一般,評(píng)估技術(shù)會(huì)用到page rank算法.這是google發(fā)明的算法.
╃(Chris-- 20:08:11
  Pagerank這里就不介紹的太詳細(xì)了,大家google一下有很多介紹的。大概說一下,就是通
  過指向頁面A的鏈接數(shù)量和權(quán)重來判斷頁面A的rank 值。Matrix的page rank是5.0,是一個(gè)
  中等的得分
╃(Chris-- 20:09:29
  繼續(xù)crawler的關(guān)鍵技術(shù):
refresh policy-. 因?yàn)榫W(wǎng)頁抓下來之后,每經(jīng)過一段時(shí)間,crawler都必須更
  新網(wǎng)頁,從而保證索引的網(wǎng)頁是最新的網(wǎng)頁。最簡單的更新策略就是把所有網(wǎng)頁重新下載
  一次,但是這個(gè)耗費(fèi)的時(shí)間起碼是一個(gè)月,是heavy cost,不能被接受。所以,一個(gè)優(yōu)秀的
  更新算法是一個(gè)crawler的根本。
╃(Chris-- 20:10:41
  繼續(xù)crawler的關(guān)鍵技術(shù):
  4.壓縮算法,Crawler抓下來的東西,會(huì)分布式的存儲(chǔ)在本地。一般來講,因?yàn)閿?shù)據(jù)量的龐
  大,所以這里的存儲(chǔ)會(huì)有一個(gè)壓縮機(jī)制,從來減少總的存儲(chǔ)容量。包括將來在各個(gè)數(shù)據(jù)服
  務(wù)器之間傳輸數(shù)據(jù),都是需要一個(gè)優(yōu)秀的壓縮算法,從來減少通訊帶來的帶寬負(fù)擔(dān)。
╃(Chris-- 20:11:10
  關(guān)于crawler的介紹就完了,大家自由提問吧.提問完我們進(jìn)入index engine
base- 20:11:26
  1. 分布式的運(yùn)算方式
  2. 效率問題
  3. 切詞
  4. 相似性分析
  5. 如何緩存等等
  
  請(qǐng)簡述一下先,謝謝
  偶列的可能沒有重點(diǎn),請(qǐng)指教,偶關(guān)心相似性分析部分
base- 20:11:32
  哦,這是剛才打的
真神- 20:12:13
  google的pr值是針對(duì)性每個(gè)網(wǎng)頁還是一個(gè)網(wǎng)站?
base- 20:12:24
  1. 你說的是算法
  2. 應(yīng)該就是相似性分析部分
  3和4應(yīng)該屬于緩存和更新部分的吧
crane- 20:12:27
  關(guān)心多線程的檢索方式
╃(Chris-- 20:12:28
  一個(gè)一個(gè)來,我先回答base的問題,ok?
base- 20:12:37
   
╃(Chris-- 20:14:03
  base的問題:
  1.分布式的運(yùn)算方式? 這個(gè)主要就是任務(wù)調(diào)度的算法問題,就是如何分配任務(wù). 比如,一個(gè)
  很簡單的分布式,就是一個(gè)線程下載一個(gè)網(wǎng)站,一臺(tái)服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:14:55
  2.效率問題? crawler目前來講,google跑完一次需要3個(gè)月,所以每隔一段時(shí)間google會(huì)
  dance一次,就是重新整理索引.
base- 20:15:41
  1. 這里面,如果某些服務(wù)器出現(xiàn)問題的時(shí)候怎么辦?
  2. GOOGLE是如何存放數(shù)據(jù)的,DBMS?
base- 20:15:59
  哦,我應(yīng)該了解下crawler先
╃(Chris-- 20:16:25
  1. 有備份機(jī)制,如何備份不得而知. 2.自己定義的格式存儲(chǔ),比如txt,非dbms,肯定不是.
~~>.<~~- 20:17:03
  為什么不用dbms?
  
base- 20:17:05
  是DBMS是不行的,文本方式?大約可以知道是怎么存放的了
╃(Chris-- 20:17:40
  3.切詞, 這個(gè)是中國搜索引擎的特色. 一般來講,切詞輸入nlp的領(lǐng)域,引入了nlp的話,會(huì)提
  高檢索效率,但是nlp是一個(gè)世紀(jì)難題,baidu解決得效果我看大家也能看得到.
╃(Chris-- 20:17:47
  google沒有切詞這個(gè)概念
╃(Chris-- 20:18:04
  4,5 屬于檢索引擎得東西,我們下面在談.
╃(Chris-- 20:18:17
  next,真神得問題?
真神- 20:18:35
  google的pr值是針對(duì)每個(gè)網(wǎng)頁還是一個(gè)網(wǎng)站? 
base- 20:18:36
  切詞是剛才聽到的,呵呵
╃(Chris-- 20:18:50
  pr值是對(duì)每個(gè)網(wǎng)頁.
base- 20:19:04
  在語義分析的時(shí)候會(huì)有 
╃(Chris-- 20:19:05
  page rank,顧名思義,是page
╃(Chris-- 20:19:35
  對(duì),繞開語義是必須得,google完全繞開了語義.
冰云- 20:19:36
  就是說,我和pr高的page做鏈接我的pr也會(huì)提高
╃(Chris-- 20:20:08
  冰云說得對(duì),這個(gè)非常明顯
╃(Chris-- 20:20:30
  但是也要和對(duì)方給出來得連接數(shù)量有關(guān)
陸地孤帆- 20:21:06
  我想問一下跨語言跨字符集的搜索怎么實(shí)現(xiàn)的?
  比如我們輸入中文,卻能查到行相似關(guān)鍵字的繁體中文,甚至日問韓問資料?
base- 20:21:15
  對(duì),繞開語義是必須得,google完全繞開了語義.
  
  但是這樣一來,只是關(guān)鍵字分析的話,那么相似性分析就會(huì)有很大偏差了
╃(Chris-- 20:22:05
  但是效果來看,google并不差,實(shí)際上全文檢索引擎+page rank可以做得很好. 語義并不是
  想象中那么容易處理. 往往1%得誤差,會(huì)造成10%的錯(cuò)誤放大.
base- 20:22:40
  當(dāng)然,語義分析到現(xiàn)在也解決的不好,很難
╃(Chris-- 20:23:21
  跨語言,跨字符集. 這個(gè)有一個(gè)翻譯的對(duì)應(yīng)詞典. 會(huì)在索引階段就處理這個(gè)問題. 比如簡體
  和繁體的對(duì)應(yīng). 但是google沒有做簡體對(duì)英文的對(duì)應(yīng),因?yàn)檫@是屬于機(jī)器翻譯的問題,而不
  是簡單的對(duì)應(yīng)問題.
冰云- 20:23:55
  不是通過unicode么?
base- 20:24:13
  page rank+全文檢索,這個(gè)問題需要討論一下,有點(diǎn)不清楚
╃(Chris-- 20:24:27
  對(duì),簡體,繁體,可以通過unicode
╃(Chris-- 20:25:00
  但是which unicode對(duì)應(yīng)which unicode 還是應(yīng)該有個(gè)對(duì)應(yīng).
農(nóng)民 - Javen- 20:25:41
  還有沒有回答的: 
  
crane- 20:12:27
  關(guān)心多線程的檢索方式
╃(Chris-- 20:25:48
  google的本質(zhì)是全文索引+page rank. 沒有語義,沒有分詞. 但是效果很不錯(cuò).
╃(Chris-- 20:26:10
  crane,能把問題說清楚些么? 多線程的檢索方式?
╃(Chris-- 20:26:34
  你是問多用戶并發(fā)檢索的情況如何處理?
crane- 20:26:49
  就是多線程 如何 處理不重復(fù)
crane- 20:27:05
  如何保證 不重復(fù)檢索網(wǎng)頁
crane- 20:27:36
  我曾經(jīng)做過爬網(wǎng)站的程序,這個(gè)是我遇到的最復(fù)雜的問題
╃(Chris-- 20:27:59
  應(yīng)該是crawler如何不重復(fù)下載網(wǎng)頁吧?最簡單的方法,就是我前面提到的:
  比如,一個(gè)很簡單的分布式,就是一個(gè)線程下載一個(gè)網(wǎng)站,一臺(tái)服務(wù)器處理一個(gè)ip段.
  
  
╃(Chris-- 20:28:42
  具體,如果是在一個(gè)網(wǎng)站也采用多線程處理,那么實(shí)現(xiàn)方式上來講,會(huì)有一個(gè)隊(duì)列,來存儲(chǔ)已
  經(jīng)處理過的頁面. 然后新處理的頁面要比較一下隊(duì)列里的頁面.
農(nóng)民 - Javen- 20:28:52
  但 matrix 會(huì)同時(shí)有 上千個(gè) google 線程來 dance 
╃(Chris-- 20:29:07
  對(duì),上面講到了解決方法.
╃(Chris-- 20:29:14
  會(huì)有一個(gè)隊(duì)列.
crane- 20:29:25
  一個(gè)線程下載一個(gè)網(wǎng)站,我倒,因?yàn)槲疫@個(gè)程序是就一個(gè)機(jī)器,我的PC
crane- 20:29:36
  有沒有其他的辦法
crane- 20:29:59
  算法推薦也好
base- 20:30:03
  就是一個(gè)網(wǎng)段一個(gè)網(wǎng)段的排吧
base- 20:30:10
  不會(huì)重復(fù)網(wǎng)站了
╃(Chris-- 20:30:16
  如果是n個(gè)線程處理一個(gè)網(wǎng)站,那么就是我上面提到的方法啊. 
╃(Chris-- 20:30:27
  會(huì)有一個(gè)隊(duì)列,來存儲(chǔ)已經(jīng)處理過的頁面. 然后新處理的頁面要比較一下隊(duì)列里的頁面.
  
  
  
╃(Chris-- 20:30:36
  所有線程共享這個(gè)隊(duì)列.
╃(Chris-- 20:30:43
  這是最簡單的方法.
crane- 20:31:03
  哦,明白了,謝謝
╃(Chris-- 20:31:05
  在n個(gè)線程處理一個(gè)網(wǎng)站,當(dāng)然也可以有一些更聰明的調(diào)度方法,
╃(Chris-- 20:31:24
  具體以后再聊聊.
╃(Chris-- 20:31:29
  還有其他問題么?
crane- 20:31:33
  更聰明 的是什么,剛才你說的一個(gè)隊(duì)列和我的想法是一樣的價(jià)值不大
冰云- 20:31:42
  pr這東西對(duì)個(gè)人網(wǎng)站到底有沒有意義呢?
base- 20:32:03
  以前偶查東西的時(shí)候是IP段來,一個(gè)IP一個(gè)IP的來過
crane- 20:32:08
  更聰明算法 的我以后找你可以么  
╃(Chris-- 20:32:19
  價(jià)值不大?但是你必須實(shí)現(xiàn)啊. 其他算法以后我們可以探討一下.
╃(Chris-- 20:32:38
  pr值我覺得還是挺重要,起碼再google排名上氣的是關(guān)鍵性的作用.
冰云- 20:32:56
  左邊的排名是排的PR?
base- 20:32:58
  我還是不明白,page rank + 全文檢索,如何處理的相似性問題,就是重要性問題,舉個(gè)
  例子如何?
╃(Chris-- 20:33:07
  google帶來的訪問量,目前來講是在60%以上.
農(nóng)民 - Javen- 20:33:56
  我們?cè)谕粋€(gè)數(shù)據(jù)庫里檢索數(shù)據(jù)都要考慮速度問題,google 是怎么樣保證他的檢索速度的?
  同一個(gè)關(guān)鍵詞的搜索,他需要從 N 個(gè)服務(wù)器上去拿數(shù)據(jù),而且上面說到的,可能是打開文
  本文件來獲得數(shù)據(jù)。   
方片- 20:34:14
  為什么在GOOGLE中搜索,當(dāng)你翻了很多頁時(shí)會(huì)經(jīng)常出現(xiàn)重復(fù)的頁面鏈接?
╃(Chris-- 20:34:25
  base,可以看看page rank算法.
base- 20:35:03
  哦,謝謝,偶去望一下
charbee- 20:35:18
  weblucene怎么用呀?
郁也風(fēng)- 20:36:00

base- 20:36:12
  you can use English,haha....
╃(Chris-- 20:36:12
  javen,這個(gè)就是分布式全文索引的效率問題,效率上來講,這個(gè)會(huì)很迅速,特別是海量數(shù)據(jù)的
  處理上,會(huì)比傳統(tǒng)的數(shù)據(jù)庫快n倍.對(duì)google來講,檢索一次,也就是讀幾個(gè)文件,本地傳輸2次
  數(shù)據(jù).速度完全可以保證
郁也風(fēng)- 20:36:33
  English is my weakest link
╃(Chris-- 20:36:44
  charbee,weblucene我沒有用過,希望下次我們可以把車東請(qǐng)過來給大家講講這個(gè)東西,呵呵.
  javen可以聯(lián)系一下
base- 20:37:01
  try Wan neng Wubi :)
crane- 20:37:16
  嘩~~~~ 鼓掌~~
郁也風(fēng)- 20:37:23
  welcome:)
charbee- 20:37:29
  好,
阿古- 20:37:36
  鼓掌!
拓拔濤- 20:37:36
   
冰云- 20:37:43
  車東現(xiàn)在在美國培訓(xùn)
KIKI- 20:37:45
   
Server- 20:37:46
  em14
base- 20:37:52
   
農(nóng)民 - Javen- 20:38:01
  檢索一次,也就是讀幾個(gè)文件,本地傳輸2次數(shù)據(jù).
  
  這個(gè)可以細(xì)化一下???  
Server- 20:38:03
  em13
charbee- 20:38:14
  lucene呢,講講原碼核心部分也好。
╃(Chris-- 20:38:17
  javen,這個(gè)和google的具體索引實(shí)現(xiàn)有關(guān).
農(nóng)民 - Javen- 20:38:27
  警告:  base  Server
  
  不要發(fā)這種東西。   否則立馬清除! 
base- 20:38:36
   
真神- 20:38:40
  這個(gè)是否是index engine部分的內(nèi)容了?
╃(Chris-- 20:38:46
  lucene源碼核心我也想講講,但是時(shí)間不是很允許.
╃(Chris-- 20:38:56
  對(duì),下面我們講講index engine
charbee- 20:39:04
  呵呵,好。
crane- 20:39:06
  lucene源碼核心  放到最后講如何
charbee- 20:39:11
  好。
crane- 20:39:17
  好
╃(Chris-- 20:39:30
  現(xiàn)在已經(jīng)快一個(gè)小時(shí)了,我得手要斷了,哈哈
charbee- 20:39:44
  page rank 還沒有講完,我的一個(gè)普通網(wǎng)頁的網(wǎng)站,怎么提高page rank
農(nóng)民 - Javen- 20:39:51
  要不休息一會(huì)兒吧。  大家自由聊聊。   
crane- 20:39:52
  挑戰(zhàn)體能極限,我們都支持你 
crane- 20:40:05
  好哈,休息
郁也風(fēng)- 20:40:07

╃(Chris-- 20:40:14
  charbee:
  1. 找盡量多的網(wǎng)頁為你做鏈接指向你.
KIKI- 20:40:17
   吃塊瓜,
農(nóng)民 - Javen- 20:40:22
  charbee :   這個(gè)倒是個(gè)實(shí)在的問題啊。  
  
  我的 blog 今天看到了  3 了 。  哈哈 
charbee- 20:40:42
  呵呵。
冰云- 20:40:45
  我之前是5,現(xiàn)在下降到4,估計(jì)和我有情鏈接增多有關(guān)
郁也風(fēng)- 20:40:45
  my pr value is zero
crane- 20:41:05
  怎么看5 3呀
冰云- 20:41:10
  google bar
charbee- 20:41:10
  我的也是0
crane- 20:41:14
  pr指數(shù)在哪里看?
╃(Chris-- 20:41:20
  增多是不會(huì)減少pr的. pr只和指向你的鏈接有關(guān).
郁也風(fēng)- 20:41:20
  my link‘s type is ?abc=***
╃(Chris-- 20:41:31
  下載一個(gè)google的bar就可以看到
  
  
  
╃(Chris-- 20:42:52
  下面我們繼續(xù)index engine
crane- 20:43:10
  好,謝謝
charbee- 20:43:25
  農(nóng)民我的blog玩不了了:
  http://www.matrix.org.cn/blog/char/
charbee- 20:43:46
  繼續(xù) index engine
  好像lucene就是用 index engine 
╃(Chris-- 20:44:09
  東西抓下來之后,除了存儲(chǔ)起來,就是要進(jìn)行索引了,這就是Index engine要做的事情。
  這里我們的索引都是指完全的全文索引,而不是只對(duì)字的索引,或者只對(duì)詞的索引。有些
  國內(nèi)的檢索引擎是對(duì)字的索引或者對(duì)詞的索引,或者兩者的結(jié)合。
KIKI- 20:44:11
  好像也有search engine吧?
╃(Chris-- 20:44:48
  其實(shí),我們平時(shí)用的lucene就是一個(gè)索引引擎,但是不支持分布式。而且,索引壓縮算法
  還有其他方面還存在一些問題不適合大型搜索引擎使用,但是對(duì)于一般通常的應(yīng)用來講應(yīng)
  該是沒有什么問題。
╃(Chris-- 20:45:39
  關(guān)于index engine,有幾個(gè)問題比較關(guān)鍵:
╃(Chris-- 20:46:30
  1.一般來講,因?yàn)閿?shù)據(jù)量是很大,所以索引的容量也會(huì)很大,一般來講,數(shù)據(jù)量和索引量
  的比例會(huì)是1:1。所以,索引的存儲(chǔ)也會(huì)是分布式的。比如google,用來存儲(chǔ)索引的服務(wù)
  器大概有1000多臺(tái)。google用的是什么算法是沒有公布,起碼我是沒有找到。最簡單的索
  引就是倒排索引,lucene就是用的這個(gè).
╃(Chris-- 20:48:51
  2.Index engine 必須支持增量索引,而且增量索引速度應(yīng)該很快。這個(gè)問題,通常的解
  決方法,是為新增的數(shù)據(jù)新建一個(gè)新的索引塊,然后在一定時(shí)間,將這個(gè)新的索引塊并入
  舊的索引塊。比如lucene里就是這么做的。
╃(Chris-- 20:50:55
  3.索引有一個(gè)壓縮的問題,因?yàn)橥ǔ?shù)據(jù)量和索引量的比例會(huì)是1:1,如果壓縮算法做的
  比較好的話,應(yīng)該可以得到更好的一個(gè)比例。lucene這方面做的比較一般.
╃(Chris-- 20:51:29
  4.還有就是多語言的問題,索引必須支持多語言.現(xiàn)在unicode可以很好的解決這個(gè)問題
╃(Chris-- 20:52:55
  5.索引的結(jié)構(gòu)還必須為檢索,相似性分析,等等提供良好的計(jì)算接口.比如google和baidu的
  類似網(wǎng)頁,為了很快找到類似網(wǎng)頁,這些數(shù)據(jù)也必須放到索引里面去.
╃(Chris-- 20:53:57
  6.當(dāng)然,支持doc,excel,ps 等多種文件格式,這個(gè)是基本的東西了
  
Join- 20:54:19
  怎么把數(shù)據(jù)放入索引哦?
  
Join- 20:54:27
  添加索引??
╃(Chris-- 20:54:29
  就是通過索引引擎.
Join- 20:54:44
  沒聽過
╃(Chris-- 20:54:56
  數(shù)據(jù)下載下來,出發(fā)索引引擎,索引引擎分析數(shù)據(jù),添加到索引庫.
╃(Chris-- 20:55:48
  index engine 介紹完了.大家自己提問
╃(Chris-- 20:55:52
  自由提問
方片- 20:57:51
  時(shí)間太短,講的東西太深,聽不大懂,Chris能不能花點(diǎn)時(shí)間將今天的講座整理成一篇文檔,
  以便慢慢學(xué)習(xí)啊
農(nóng)民 - Javen- 20:58:11
  坦率地說,我沒有太明白“全文”索引的意思。  對(duì)象不是字、詞,是全文? 
  
  一般意義上的索引對(duì)象都是關(guān)鍵字。  
╃(Chris-- 20:58:15
  呵呵.好啊.完了會(huì)整理放到網(wǎng)上.
阿古- 20:58:23
  就是阿
  感覺很復(fù)雜
  很多算法沒有接觸到
農(nóng)民 - Javen- 20:58:34
  我會(huì)整理好記錄的。  我已經(jīng)在整理了。   會(huì)完后馬上可以放到網(wǎng)絡(luò)上。 
charbee- 20:58:54
  最好有實(shí)際點(diǎn)的東西比較好,有這樣有什么好,沒有這樣有什么好。
crane- 20:58:55
  是哈,這個(gè)東西太深了,而且涉及的方面可真多
KIKI- 20:59:01
  主要是沒學(xué)過九陽神功,要不小KS 
╃(Chris-- 20:59:07
  對(duì),全文檢索不是對(duì)關(guān)鍵字,是對(duì)全文.
  比如"我是中國人",檢索"是中",也可以檢索到就是全文檢索
郁也風(fēng)- 20:59:25
 
base- 20:59:34
  這里應(yīng)該是page rank的內(nèi)容了吧?
阿古- 20:59:45
  你可以寫拼音嘛1
base- 20:59:49
  you can download the 萬能五筆
wuyu- 20:59:52
  能不能再介紹一下索引中的分詞處理,比如中文同義詞處理?
郁也風(fēng)- 21:00:24
  I‘m downloading MS ime,76MB
wuyu- 21:00:25
  如果搜“毛主席”,帶著“毛澤東”、“毛潤芝”之類的信息也能檢索出來?
crane- 21:00:28
  Chris 隨便找個(gè)你認(rèn)為最有價(jià)值 的方面,詳細(xì)講講吧
╃(Chris-- 21:00:41
  google對(duì)索引,不會(huì)做分詞處理的.所以不會(huì)對(duì)同義詞進(jìn)行處理. baidu會(huì)做處理.
base- 21:00:52
  萬能五筆 is little, just less than 5M
墮入凡間的雨- 21:01:13
  這樣的處理豈不是很復(fù)雜
crane- 21:01:24
  google現(xiàn)在能處理拼音了
wuyu- 21:01:31
  是啊,baidu、trs、慧聰之類的國內(nèi)廠商所吹的,也就是基于漢語言的切分詞技術(shù)
wuyu- 21:01:58
  中文切分詞過程大致的原理?
crane- 21:02:00
  trs 不是國內(nèi)的吧
wuyu- 21:02:11
  國內(nèi)的,易寶嘛
╃(Chris-- 21:02:13
  trs是港資的,但是主力是國內(nèi)的
╃(Chris-- 21:02:24
  北京信息工程學(xué)院的
charbee- 21:02:34
  Chris,你在trs做嗎?
╃(Chris-- 21:02:40
  慧聰嗎,呵呵..我呆過一段時(shí)間.
wuyu- 21:02:49
  呵,主要是trs比較便宜,好象trs server才8萬。
╃(Chris-- 21:02:57
  不在trs啊? 這個(gè)不是我的專業(yè),只是我的愛好.
crane- 21:04:36
   基于漢語言的切分詞技術(shù),    維護(hù)同義詞字典?
wuyu- 21:04:47
  慧聰吹的有一個(gè)東西是內(nèi)嵌在關(guān)系數(shù)據(jù)庫內(nèi)的全文,trs、百毒、lucene都是另起專門的全
  文庫,這兩種方式有什么優(yōu)缺點(diǎn)?
農(nóng)民 - Javen- 21:05:20
  因?yàn)?google 根本不去管什么分詞、語義,而 baidu 、慧聰什么的在玩一點(diǎn),所以說他們
  技術(shù)比 google 高,說什么第三代、第四代搜索技術(shù)?  
bill-過兒- 21:06:05
   感謝!我來晚了!
base- 21:06:22
  唉,語義分析,  
KIKI- 21:06:27
  暈,現(xiàn)在才來?
農(nóng)民 - Javen- 21:06:36
  感謝大家支持!
  
  1、自由發(fā)言:大家悠著點(diǎn),不要太著急啊。剛開始請(qǐng)盡量由主講發(fā)言吧;
  
  2、一點(diǎn)限制:主講人與管理員的字體顏色為紅色,請(qǐng)大家使用黑色或者藍(lán)色,并且請(qǐng)大家
  字體不要超過5號(hào);   
crane- 21:06:46
  自然語言語義分析可有的玩了
wuyu- 21:06:49
  我是覺得中文切分詞很關(guān)鍵啊,如果用lucene的自動(dòng)切分詞,能夠滿足“查全”的要求,
  但是實(shí)際應(yīng)用中,更加需要“查準(zhǔn)”啊,你出一萬條垃圾信息還不如出一條用得著的信息好
bill-過兒- 21:07:25
  是啊,聚了一下會(huì)!
╃(Chris-- 21:07:29
information retrieval-的技術(shù)會(huì)越來越多的應(yīng)用到搜索引擎里面.比如,排重,
  相似性分析,用戶愛好分析,問題回答性質(zhì).等等. 但是,這都要以一定的準(zhǔn)確性為基礎(chǔ),如果
  技術(shù)不成熟,就只能是放在實(shí)驗(yàn)室的產(chǎn)品.
charbee- 21:07:29
  有沒有實(shí)用點(diǎn)的技巧?
crane- 21:07:33
  切分詞技術(shù) 方便解釋一下么
郁也風(fēng)- 21:08:00
  切分詞? I‘m late, what is 切分詞?wuyu?
bill-過兒- 21:08:22
  繼續(xù)
charbee- 21:08:28
  車東有篇文章講切分詞。
wuyu- 21:08:32
  郁也風(fēng),拆分為“郁也”“也風(fēng)”,lucene就是用這種自動(dòng)切分詞手段的,兩字兩字一切分。
crane- 21:08:45
  哦,明白了,謝謝
郁也風(fēng)- 21:08:57
  i see:)
wuyu- 21:09:31
  英文好切分,見空白符就切成word了,中文就沒邊界。"this is",明顯的兩個(gè)詞,但是
  “郁也風(fēng)”,你讓計(jì)算機(jī)去判斷判斷用了幾個(gè)詞?
crane- 21:09:40
  我想,應(yīng)該切分有意義的詞吧 
╃(Chris-- 21:09:46
  切分詞,對(duì)英文是不存在這個(gè)分詞的問題,因?yàn)榭崭窬褪怯⑽膯卧~的分隔符..
  但是中文就有,比如 "我馬上從馬上下來",計(jì)算機(jī)存在識(shí)別困難. 現(xiàn)在,通過一定的技術(shù),基
  于語料庫,可以達(dá)到比較好的效果.
crane- 21:10:07
  哈哈,這個(gè)例子好玩
墮入凡間的雨- 21:10:29
  語料庫是什么?
crane- 21:10:33
  語料庫 是什么,不只是詞典吧,還有什么
base- 21:10:37
  又到了語義分析上了,唉,誰能三言兩語說明白,老朽會(huì)佩服死去活來的
bill-過兒- 21:11:02
  對(duì)不起噢!
  
charbee- 21:11:09
  http://www.chedong.com/tech/lucene.html#segment
Word Segment-
bill-過兒- 21:11:13
  可以了
╃(Chris-- 21:11:16
  語料庫是一些,已經(jīng)處理好的標(biāo)注文章, 比如把人民日?qǐng)?bào)2年的文章分詞標(biāo)注好. 然后基于
  這個(gè)語料庫來處理分詞.
bill-過兒- 21:11:25
  調(diào)整好了
crane- 21:11:29
  這么智能呀
╃(Chris-- 21:11:41
  語料庫是手動(dòng)做的.
base- 21:11:49
  這個(gè)查詢數(shù)據(jù)量,大了去了,有什么相關(guān)算法?
crane- 21:11:59
  想當(dāng)于 先給機(jī)器人學(xué)知識(shí),然后他去做 舉一反三的工作?
╃(Chris-- 21:11:59
  這個(gè)建索引,速度還不錯(cuò).
╃(Chris-- 21:12:06
  crane說對(duì)了
crane- 21:12:41
  哇,太夸張了,現(xiàn)在的技術(shù)可真厲害,估計(jì)性能是個(gè)不小的問題
base- 21:12:45
  呵呵
墮入凡間的雨- 21:13:18
  也就是將常用詞語做庫!然后在語法切分時(shí)根據(jù)庫做比較?
真神- 21:13:32
  這個(gè)深入下去估計(jì)是AI方面的內(nèi)容了
base- 21:13:42
  不用深入,已經(jīng)是了
╃(Chris-- 21:13:46
  不僅僅這么簡單,是對(duì)一些文章進(jìn)行分詞并進(jìn)行詞性標(biāo)注.
╃(Chris-- 21:14:10
  先手動(dòng)做,然后讓機(jī)器在這個(gè)基礎(chǔ)上對(duì)其他文章自動(dòng)分詞
墮入凡間的雨- 21:14:41
  也就是叫機(jī)器去讀文章!
╃(Chris-- 21:14:46
  對(duì).
╃(Chris-- 21:14:58
  這些都是ir,nlp范疇的東西,呵呵
真神- 21:15:29
  說到這里我想起電影《AI》里小機(jī)器人去游樂場問問題那一幕
╃(Chris-- 21:15:32
  所以說,搜索引擎是一項(xiàng)非常豐富的技術(shù).會(huì)牽涉很多領(lǐng)域

╃(Chris-- 21:15:45
  下面我們繼續(xù) search engine
  
墮入凡間的雨- 21:16:05
  如果庫的文件不是很大,倒是為未來的電腦語音系統(tǒng)提供了很好的內(nèi)容
農(nóng)民 - Javen- 21:16:48
  第三個(gè)部分內(nèi)容:   
base- 21:16:52
  如果語義分析解決了,不是領(lǐng)域問題,是對(duì)人類的一大貢獻(xiàn)哦
╃(Chris-- 21:17:13
  索引建好之后,就是為了search 服務(wù)了.
  通常流程是這樣的,用戶發(fā)出請(qǐng)求 <-> search engine<-> index server
╃(Chris-- 21:18:06
  對(duì)于檢索引擎,search engine,有以下關(guān)鍵問題:
  1. 檢索結(jié)果的排序問題,這個(gè)其實(shí)前面的page rank做了很多鋪墊的
╃(Chris-- 21:18:58
  一些新的嘗試,比如對(duì)用戶偏好的分析之類的,都可以運(yùn)用在這里,對(duì)不同偏好的用戶采用不
  同的排序策略
╃(Chris-- 21:19:37
  2.檢索結(jié)果的排重問題,就是排除重復(fù)的結(jié)果.這個(gè)算法很重要,因?yàn)椴粌H是準(zhǔn)確性的問題,
  還有就是速度問題.
╃(Chris-- 21:20:06
  3.檢索結(jié)果的相似性分析問題,這個(gè)和上面的為那提比較類似. 主要用在 類似網(wǎng)頁 里面
╃(Chris-- 21:21:04
  4.檢索的速度問題.這個(gè)主要是靠前面的索引結(jié)構(gòu)決定.當(dāng)然,很多技術(shù)可以用來提升速度,
  比如分布式cache
╃(Chris-- 21:21:23
  大概就這么幾個(gè)問題..
╃(Chris-- 21:21:26
  大家自由發(fā)言.
wuyu- 21:21:52
  能不能講講二次檢索?
crane- 21:22:06
  感覺  問題 好象應(yīng)該在入倉的時(shí)候就 該解決
crane- 21:22:15
  感覺  排重問題 好象應(yīng)該在入倉的時(shí)候就 該解決
╃(Chris-- 21:22:27
  二次檢索很簡單,其實(shí)就是和第一次檢索的東西作一次and
bill-過兒- 21:22:38
  檢索結(jié)果的排重問題,就是排除重復(fù)的結(jié)果.這個(gè)算法很重要,
  這個(gè)要自己 開發(fā) 嗎?
╃(Chris-- 21:22:48
  對(duì),排重的問題,很多會(huì)在入庫的時(shí)候解決.
wuyu- 21:22:50
  但是二次檢索對(duì)性能的影響?一般搜索引擎是怎么處理的?
╃(Chris-- 21:23:29
  性能影響不大...對(duì)于優(yōu)秀的搜索引擎來講,一般的布爾表達(dá)式都不會(huì)是大問題
╃(Chris-- 21:23:54
  二次檢索也只是為布爾表達(dá)式加了一個(gè)and
╃(Chris-- 21:24:09
  排重當(dāng)然要自己開發(fā)拉?
wuyu- 21:24:44
"上一次的" AND 關(guān)鍵詞),然后進(jìn)行“全新”的檢索?
╃(Chris-- 21:25:16
  這只是一種實(shí)現(xiàn)方式, 就是這種方式,解決起來也是完全可行的.當(dāng)然,有更好的方式,比如放到cache里,然后檢索cache等.
wuyu- 21:25:21
  我暈死,呵呵,我還一直以為采用了某些手段,比如做了cache
╃(Chris-- 21:25:57
  呵呵.
郁也風(fēng)- 21:26:45
  "上一次的" AND 關(guān)鍵詞-it‘s like my method:)
╃(Chris-- 21:26:59
  呵呵
wuyu- 21:27:07
  我是關(guān)鍵數(shù)據(jù)庫的檢索時(shí)被人逮著問二次檢索的,那家伙硬是把我用的trsserver提供全文和我業(yè)務(wù)后臺(tái)管理時(shí)從關(guān)系數(shù)據(jù)庫做檢索混起來,非讓我明白的告訴他支持不支持二次檢索,是怎么支持的,暈啊
農(nóng)民 - Javen- 21:27:11
  大家還有問題嗎?    要不今天暫時(shí)到這里?  
SS- 21:27:24
  問個(gè)問題
SS- 21:27:35
  比如剛才因?yàn)楹芏鄾]有看到
╃(Chris-- 21:27:42
  wuyu,你這個(gè)問題必須放到cache里.
農(nóng)民 - Javen- 21:27:43
  chris 應(yīng)該是比較累了。 呵呵 。   狂敲鍵盤一個(gè)半小時(shí)了。 
KIKI- 21:27:44
  急什么?? 都這么有熱情勁兒
╃(Chris-- 21:27:52
  哈哈
JAVA神化- 21:27:58
   
SS- 21:27:59
  比如我檢索一個(gè)條件是 xx=123 and test=234
bill-過兒- 21:28:04
  唉!我還沒聽夠那!
SS- 21:28:07
  一般做法是不是分2次檢索
JAVA神化- 21:28:09
   
charbee- 21:28:11
  呵呵。我們要考慮怎么把技術(shù)變成實(shí)用。
crane- 21:28:19
  一般的大型企業(yè)應(yīng)用系統(tǒng)中,哪些地方可以用到Lucene呢
SS- 21:28:29
  先檢索出xx=123然后在結(jié)果集中test=234
╃(Chris-- 21:28:39
  ss,這個(gè)要看索引結(jié)構(gòu),如果索引結(jié)構(gòu)好,不用兩次檢索,可以一次掃描就解決
wuyu- 21:28:40
  我是含糊過的,反正我關(guān)系數(shù)據(jù)庫的檢索是根據(jù)我定義的Filter做了cache,而他們大量用
  檢索的時(shí)候是跑我trs server來檢索的,懶得理他,呵呵
crane- 21:29:35
  學(xué)了這么多,手癢癢,想用用,在哪里能用這些技術(shù) 
charbee- 21:29:55
  好呀。最好能有些效果可以看看
墮入凡間的雨- 21:30:04
  資源系統(tǒng)里面較為常用
╃(Chris-- 21:30:28
  開發(fā)搜索引擎的時(shí)候,或者處理海量數(shù)據(jù)的時(shí)候.
墮入凡間的雨- 21:30:38
  而且資源系統(tǒng)中的數(shù)據(jù)量一般也是比較大的
╃(Chris-- 21:31:09
  搜索引擎也會(huì)是將來的一個(gè)方向,專業(yè)化,個(gè)性化的搜索引擎
crane- 21:31:14
   感覺 搜索引擎 是非常有錢途的東東
KIKI- 21:31:31
  呵呵,沒錢途誰學(xué)呀 
wuyu- 21:31:49
  我這邊更多的應(yīng)用是從關(guān)系數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入全文庫,然后再提供出來做檢索。
  
  不過有一個(gè)問題很煩,就是關(guān)系數(shù)據(jù)庫(或是google的某個(gè)網(wǎng)頁)做了變更、刪除以后全
  文庫的同步問題?
  1、是更新后立即刷新全文完成同步,還是通過定時(shí)任務(wù)進(jìn)行同步?
  2、如果是定時(shí)任務(wù),是增量更新方式來完成同步,還是完全復(fù)制的同步?
bill-過兒- 21:31:49
   
╃(Chris-- 21:31:51
  對(duì),前段時(shí)間萬網(wǎng)老總就做了一次秀,關(guān)于搜索引擎
crane- 21:32:01
  以前是信息就是金錢,現(xiàn)在是信息太多,摘得出來才是金錢
阿古- 21:32:21
  嗯 
墮入凡間的雨- 21:32:27
  還有個(gè)問題,如果使用存儲(chǔ)過程,在查詢速度上會(huì)有很大的提升,但是如果考慮跨平臺(tái)的
  使用,使用SQL語法有什么好的建議
SS- 21:32:50
  要看是什么系統(tǒng)了
wuyu- 21:33:12
  對(duì)于google來說,原始網(wǎng)站和全文庫的不同步是可以允許的,但是對(duì)于小型應(yīng)用來說,原
  始關(guān)系數(shù)據(jù)庫和全文庫的不同步或是同步不及時(shí),就是很難容忍的了,嗚嗚
SS- 21:33:16
  我覺得這種核心思想應(yīng)該是夠用則可
╃(Chris-- 21:33:28
  小型應(yīng)用,我覺得立即同步刷新就行了.
SS- 21:33:28
  就是說如果現(xiàn)有的速度夠用,就不要用存儲(chǔ)過程
墮入凡間的雨- 21:33:42
  資源!應(yīng)該是小學(xué)到高中的全部資源或者更多
SS- 21:33:52
  如果不夠,在需要的地方加,此時(shí)不用顧慮移植問題
wuyu- 21:34:26
  基于事件觸發(fā)的機(jī)制,在關(guān)系數(shù)據(jù)庫完成更新操作后立即通知全文庫做內(nèi)容更新同步操作?
╃(Chris-- 21:34:39
  對(duì),小型應(yīng)用應(yīng)該這樣
墮入凡間的雨- 21:35:24
  這一步的更新是通過觸發(fā)器來實(shí)現(xiàn)???
╃(Chris-- 21:35:44
  是觸發(fā)機(jī)制,不是觸發(fā)器
╃(Chris-- 21:36:07
  trigger比較局限
crane- 21:37:01
  關(guān)于搜索引擎的未來,關(guān)于全球海量信息,會(huì)不會(huì)有這樣的問題,就是計(jì)算機(jī)的性能發(fā)展比信息量增加的快,因?yàn)闅v史資料是有限的 ,新的文字資料要人工寫的
  對(duì)于文字的檢索也許將來的性能不是問題????有沒有這種可能
  
wuyu- 21:37:05
  事件觸發(fā),我不一定是觸發(fā)器的,可是是對(duì)一個(gè)數(shù)據(jù)實(shí)體做一個(gè)動(dòng)作以后觸發(fā),或是完成一系列的動(dòng)作,也就是完成一個(gè)業(yè)務(wù)處理以后做觸發(fā)
SS- 21:37:14
  不可能的
SS- 21:37:25
  信息的發(fā)展是爆炸性的
SS- 21:37:49
  這是指數(shù)級(jí)別的增長
crane- 21:37:51
  爆炸 的信息文字誰來寫,要人來寫的
SS- 21:38:07
  而計(jì)算機(jī)性能是倍數(shù)級(jí)的
SS- 21:38:13
  很多信息不需要人工輸入的
墮入凡間的雨- 21:38:14
  解決問題的方式也是!
bill-過兒- 21:38:23
  可以發(fā)明說話轉(zhuǎn)換成字阿
crane- 21:38:30
  什么信息不需要人工輸入呀
╃(Chris-- 21:38:34
  呵呵,這個(gè)也沒有辦法,你必須作出一個(gè)犧牲,it is a tradeoff.
SS- 21:38:37
  很多,比如統(tǒng)計(jì)數(shù)據(jù)
crane- 21:38:54
bill-過兒- 21:38:23
  可以發(fā)明說話轉(zhuǎn)換成字阿
  
  哦,對(duì) ,這樣信息量就大了去了
SS- 21:39:16
  還有比如探測器取得的信息
crane- 21:39:24
  不過,同樣面臨著一個(gè)問題,一年內(nèi)一個(gè)人說話是有限的
SS- 21:39:30
  不一定是說話
╃(Chris-- 21:39:31
  今天的專題講座到這結(jié)束吧. 我們下次再見.多謝各位的支持.希望matrix能有更多的高手加入進(jìn)來.歡迎你們.
crane- 21:39:33
  那不是文字信息了,圖形的
wuyu- 21:39:34
"內(nèi)容"-;輸出的,或者是他的“鏈接”是由js、flash等手段來控制的,這種時(shí)候,spider常見的處理機(jī)制?有沒有簡單入門的算法?
SS- 21:39:46
  圖形 文字等等
crane- 21:39:52
  暈,談?wù)勊阉饕娴奈磥戆?
╃(Chris-- 21:40:14
  這個(gè)是html的分析問題,spider肯定有一個(gè)完整的html分析器.分析所有js,flash等,這個(gè)屬于program層面的東西了.呵呵.
crane- 21:40:18
  技術(shù),基礎(chǔ),歷史,都講了,最后要談未來 然后收功的  
墮入凡間的雨- 21:40:21
  圖形可以建立索引目錄呀!
╃(Chris-- 21:40:28
  哈哈,未來無限美好!
╃(Chris-- 21:40:31
  收工!
冰云- 21:40:41
   
SS- 21:40:42
  講了2個(gè)小時(shí)了
crane- 21:40:45
  謝謝 Chris
SS- 21:40:45
  不錯(cuò)
JAVA神化- 21:40:45
   
拓拔濤- 21:40:46
   
KIKI- 21:40:55
    
wuyu- 21:40:57
  按sun的說法,網(wǎng)絡(luò)就是計(jì)算機(jī),搜索就是信息。
SS- 21:40:59
  pppppppppppppppppp
SS- 21:41:05
  大家鼓掌
wuyu- 21:41:07
   
wuyu- 21:41:10
  獻(xiàn)花
╃(Chris-- 21:41:11
  太累,要不今晚接著把lucene的源碼講一遍,呵呵,下次吧.
墮入凡間的雨- 21:41:12
   
JAVA神化- 21:41:13
  明天去報(bào)到
  聽說還要軍訓(xùn)  5
農(nóng)民 - Javen- 21:41:15
  感謝 chris 的學(xué)識(shí)與努力,也感謝大家的支持!
  
  今天晚上到此為止。    
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)點(diǎn)擊舉報(bào)
打開APP,閱讀全文并永久保存 查看更多類似文章
猜你喜歡
類似文章
lucene提高搜索性能-轉(zhuǎn)
Doug Cutting 訪談錄 -- 關(guān)于搜索引擎的開發(fā) - Dedian - Blog...
wuyu
搜索引擎的工作機(jī)制[圖]
有關(guān)Lucene一些讀者常問的
我的開源搜索引擎之路 -
更多類似文章 >>
生活服務(wù)
熱點(diǎn)新聞
分享 收藏 導(dǎo)長圖 關(guān)注 下載文章
綁定賬號(hào)成功
后續(xù)可登錄賬號(hào)暢享VIP特權(quán)!
如果VIP功能使用有故障,
可點(diǎn)擊這里聯(lián)系客服!

聯(lián)系客服