免费成人福利视频,天天艹天天操

農(nóng)民 - Javen- 19:50:30
　　感謝大家支持！
　　
　　1、自由發(fā)言：大家悠著點(diǎn)，不要太著急啊。剛開始請(qǐng)盡量由主講發(fā)言吧；
　　
　　2、一點(diǎn)限制：主講人與管理員的字體顏色為紅色，請(qǐng)大家使用黑色或者藍(lán)色，并且請(qǐng)大家
　　字體不要超過5號(hào)；
crane- 19:50:39
　　偶鼓掌先
老漁翁- 19:50:46
　　
crane- 19:51:01
　　
╃(Chris-- 19:51:05
　　hi,各位,現(xiàn)在開始吧.
charbee- 19:51:06
　　廣州好像已經(jīng)20：00啦
朱世杰℡- 19:51:27
　　GG
農(nóng)民 - Javen- 19:51:33
　　好了。大家歡迎 chris ，也感謝大家的支持！
真神- 19:52:28
　　歡迎
╃(Chris-- 19:52:31
　　恩,多謝大家支持,我先自我介紹一下.我是chris，matrix打算在這個(gè)高手群里經(jīng)常展開一些專題性，技術(shù)含量比較高的專題討論，從來讓大家都能獲益。所以我今晚就拋磚引玉,希望以后大家也能踴躍報(bào)名.
╃(Chris-- 19:52:58
　　術(shù)業(yè)有專攻，誰也不會(huì)是十全十美的高手，但是能夠把自己專長的東西拿出來和大家分享，是一件很令人開心的事情
阿古- 19:53:04
　　鼓掌
nemo- 19:53:10
　　
老漁翁- 19:53:19
　　
冰云- 19:53:25
　　別刷屏！
╃(Chris-- 19:53:29
　　搜索引擎技術(shù)不是我的專業(yè)，但是我的興趣，3年前我研究lucene源代碼從而對(duì)搜索引擎感
　　興趣，從而進(jìn)入了這個(gè)領(lǐng)域。
╃(Chris-- 19:53:53
　　我的專業(yè)是金融領(lǐng)域的一些算法研究和應(yīng)用，在香港，這方面比國內(nèi)還是要先進(jìn)一些，希
　　望下次能有機(jī)會(huì)給大家講講這方面的技術(shù)。
╃(Chris-- 19:54:02
　　言歸正傳，下面我們開始今天的專題討論。
╃(Chris-- 19:54:26
　　我會(huì)從結(jié)構(gòu)上和方向上做一些介紹，至于詳細(xì)的算法, 今晚因?yàn)闀r(shí)間原因我就不講那么詳
　　細(xì),具體有疑問大家在論壇發(fā)貼或者email和我聯(lián)系。
~~>.<~~- 19:55:12
　　good
　　!!
　　
╃(Chris-- 19:55:19
　　先大概介紹一些搜索引擎吧,這里指的搜索引擎是指類似于www.google.com,www.baidu.com
　　這樣的搜索引擎.yahoo嚴(yán)格意義上,不具有一個(gè)完整的搜索引擎的全部東西.google是搜索
　　引擎的典范.
~~>.<~~- 19:55:20
　　有興趣。
╃(Chris-- 19:55:38
　　我今晚會(huì)大概介紹一下一個(gè)完整的搜索引擎的架構(gòu)以及用到的關(guān)鍵技術(shù).
╃(Chris-- 19:55:53
　　對(duì)一個(gè)搜索引擎來講, 比較傳統(tǒng)的架構(gòu)會(huì)是這樣的:
　　crawler - index engine - search engine
~~>.<~~- 19:55:53
　　怎么你打字超快啊。
　　
crane- 19:55:58
　　up一下
Server- 19:56:17
　　不要說話，尊重一下
~~>.<~~- 19:56:22
　　
~~>.<~~- 19:56:32
　　比掌聲??！
KIKI- 19:56:55
　　暈,不要說話,聽Chris大哥講
╃(Chris-- 19:56:58
　　crawler就是一個(gè)不斷從網(wǎng)上將網(wǎng)頁抓下來的一個(gè)引擎. index engine是一個(gè)索引引擎.
　　search engine就是檢索引擎.
╃(Chris-- 19:57:07
　　下面,我們先從crawler開始講.
wuyu- 19:57:59
　　呵，百度的spider，trs的雷達(dá)，應(yīng)該都算crawler吧？
╃(Chris-- 19:58:18
　　Crawler是一項(xiàng)比較復(fù)雜的技術(shù),Standford有一些博士畢業(yè)論文的主題就是Crawler的算法.
╃(Chris-- 19:58:45
　　對(duì),但是就crawler來說,google無疑是做的最好的,具體也有很多數(shù)據(jù),包括覆蓋率,精確性等.
╃(Chris-- 19:59:18
　　stanford有一下顎關(guān)于crawler的paper,大家可以訪問
　　http://dbpubs.stanford.edu:8090/aux/index-en.html 里面有不少關(guān)于crawler的算法,
　　以及google的crawler的一些原型算法,當(dāng)然現(xiàn)在的google的crawler遠(yuǎn)遠(yuǎn)要復(fù)雜的多.
wuyu- 19:59:55
　　Crawler主要完成哪些工作？包不包括對(duì)html、script這類“無用”信息的處理？
　　
╃(Chris-- 19:59:56
　　就一個(gè)crawler來說,比較復(fù)雜的技術(shù)在于:
　　
charbee- 20:00:01
　　lucene跟google有什么關(guān)系嗎？
　　問題我先mark一下，等下chris講完了，再問
╃(Chris-- 20:00:21
　　有,lucene會(huì)在下面提到,lucene應(yīng)該屬于index engine部分的東西.
╃(Chris-- 20:00:27
　　就是中間的這部分.
wuyu- 20:00:36
　　lucene只是chris講的搜索引擎的一部分，負(fù)責(zé)全文檢索，而且lucene的切分詞是采用自動(dòng)
　　切分詞技術(shù)的
　　
　　
　　
　　
　　
　　
wuyu- 20:00:57
　　還是從crawler開始吧，不打岔了
╃(Chris-- 20:01:13
　　好,wuyu的問題很好,一會(huì)我們?cè)儆懻撘幌路衷~這個(gè)東西.
╃(Chris-- 20:02:27
　　繼續(xù)crawler的關(guān)鍵技術(shù):
　　
　　1.分布式,多線程抓取.任務(wù)的調(diào)度問題. 因?yàn)閷?duì)于成千上萬的網(wǎng)頁, 如何不重復(fù)抓取, 又
　　不漏掉重要站點(diǎn), 是一個(gè)很關(guān)鍵的問題. 這里需要一個(gè)好的分布式算法，一個(gè)很好的任務(wù)
　　調(diào)度機(jī)制。
　　
　　
╃(Chris-- 20:03:17
　　具體的算法,這里就不聊了,每個(gè)算法都可以開一個(gè)專題來討論的,呵呵.
crane- 20:03:23
　　支持打岔
朱世杰℡- 20:03:39
　　能不能提一下那些算法
朱世杰℡- 20:04:34
　　INTRO即可
charbee- 20:05:49
　　lucene的最新版支持中文了嗎？
wuyu- 20:06:01
　　先整體介紹吧，對(duì)各部分的著重點(diǎn)提一下，最后大家再對(duì)具體的某些點(diǎn)做提問，畢竟搜索
　　引擎每一部分都可以開一大個(gè)專題來討論，在一個(gè)細(xì)節(jié)上陷進(jìn)去就難出來了
╃(Chris-- 20:06:02
　　算法,沒有固定的名字,因?yàn)檫@是一個(gè)特殊的領(lǐng)域,但是對(duì)于調(diào)度算法的研究,會(huì)基于傳統(tǒng)的
　　分布式調(diào)度算法來進(jìn)行.
KIKI- 20:06:18
　　不支持吧,weblucene支持,也是開源項(xiàng)目
charbee- 20:06:42
　　車東的開源，我知道。環(huán)境架不起來。
wuyu- 20:06:44
　　看吧，一扯就扯遠(yuǎn)了吧。讓chris繼續(xù)吧
╃(Chris-- 20:07:19
　　繼續(xù)crawler的關(guān)鍵技術(shù):
　　2.網(wǎng)頁重要性的評(píng)估, 這個(gè)很重要,因?yàn)閏rawler不會(huì)把所有網(wǎng)頁都抓下來,只會(huì)抓20%的網(wǎng)
　　頁下來,所以必須評(píng)估網(wǎng)頁的重要性,如何評(píng)估就顯得很重要.
╃(Chris-- 20:07:48
　　一般,評(píng)估技術(shù)會(huì)用到page rank算法.這是google發(fā)明的算法.
╃(Chris-- 20:08:11
　　Pagerank這里就不介紹的太詳細(xì)了，大家google一下有很多介紹的。大概說一下，就是通
　　過指向頁面A的鏈接數(shù)量和權(quán)重來判斷頁面A的rank 值。Matrix的page rank是5.0，是一個(gè)
　　中等的得分
╃(Chris-- 20:09:29
　　繼續(xù)crawler的關(guān)鍵技術(shù):
refresh policy-. 因?yàn)榫W(wǎng)頁抓下來之后，每經(jīng)過一段時(shí)間，crawler都必須更
　　新網(wǎng)頁，從而保證索引的網(wǎng)頁是最新的網(wǎng)頁。最簡單的更新策略就是把所有網(wǎng)頁重新下載
　　一次，但是這個(gè)耗費(fèi)的時(shí)間起碼是一個(gè)月，是heavy cost,不能被接受。所以，一個(gè)優(yōu)秀的
　　更新算法是一個(gè)crawler的根本。
╃(Chris-- 20:10:41
　　繼續(xù)crawler的關(guān)鍵技術(shù):
　　4.壓縮算法,Crawler抓下來的東西，會(huì)分布式的存儲(chǔ)在本地。一般來講，因?yàn)閿?shù)據(jù)量的龐
　　大，所以這里的存儲(chǔ)會(huì)有一個(gè)壓縮機(jī)制，從來減少總的存儲(chǔ)容量。包括將來在各個(gè)數(shù)據(jù)服
　　務(wù)器之間傳輸數(shù)據(jù)，都是需要一個(gè)優(yōu)秀的壓縮算法，從來減少通訊帶來的帶寬負(fù)擔(dān)。
╃(Chris-- 20:11:10
　　關(guān)于crawler的介紹就完了,大家自由提問吧.提問完我們進(jìn)入index engine
base- 20:11:26
　　1. 分布式的運(yùn)算方式
　　2. 效率問題
　　3. 切詞
　　4. 相似性分析
　　5. 如何緩存等等
　　
　　請(qǐng)簡述一下先，謝謝
　　偶列的可能沒有重點(diǎn)，請(qǐng)指教，偶關(guān)心相似性分析部分
base- 20:11:32
　　哦，這是剛才打的
真神- 20:12:13
　　google的pr值是針對(duì)性每個(gè)網(wǎng)頁還是一個(gè)網(wǎng)站?
base- 20:12:24
　　1. 你說的是算法
　　2. 應(yīng)該就是相似性分析部分
　　3和4應(yīng)該屬于緩存和更新部分的吧
crane- 20:12:27
　　關(guān)心多線程的檢索方式
╃(Chris-- 20:12:28
　　一個(gè)一個(gè)來,我先回答base的問題,ok?
base- 20:12:37
　　
╃(Chris-- 20:14:03
　　base的問題:
　　1.分布式的運(yùn)算方式? 這個(gè)主要就是任務(wù)調(diào)度的算法問題,就是如何分配任務(wù). 比如,一個(gè)
　　很簡單的分布式,就是一個(gè)線程下載一個(gè)網(wǎng)站,一臺(tái)服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:14:55
　　2.效率問題? crawler目前來講,google跑完一次需要3個(gè)月,所以每隔一段時(shí)間google會(huì)
　　dance一次,就是重新整理索引.
base- 20:15:41
　　1. 這里面，如果某些服務(wù)器出現(xiàn)問題的時(shí)候怎么辦？
　　2. GOOGLE是如何存放數(shù)據(jù)的，DBMS？
base- 20:15:59
　　哦，我應(yīng)該了解下crawler先
╃(Chris-- 20:16:25
　　1. 有備份機(jī)制,如何備份不得而知. 2.自己定義的格式存儲(chǔ),比如txt,非dbms,肯定不是.
~~>.<~~- 20:17:03
　　為什么不用dbms？
　　
base- 20:17:05
　　是DBMS是不行的，文本方式？大約可以知道是怎么存放的了
╃(Chris-- 20:17:40
　　3.切詞, 這個(gè)是中國搜索引擎的特色. 一般來講,切詞輸入nlp的領(lǐng)域,引入了nlp的話,會(huì)提
　　高檢索效率,但是nlp是一個(gè)世紀(jì)難題,baidu解決得效果我看大家也能看得到.
╃(Chris-- 20:17:47
　　google沒有切詞這個(gè)概念
╃(Chris-- 20:18:04
　　4,5 屬于檢索引擎得東西,我們下面在談.
╃(Chris-- 20:18:17
　　next,真神得問題?
真神- 20:18:35
　　google的pr值是針對(duì)每個(gè)網(wǎng)頁還是一個(gè)網(wǎng)站?
base- 20:18:36
　　切詞是剛才聽到的，呵呵
╃(Chris-- 20:18:50
　　pr值是對(duì)每個(gè)網(wǎng)頁.
base- 20:19:04
　　在語義分析的時(shí)候會(huì)有
╃(Chris-- 20:19:05
　　page rank,顧名思義,是page
╃(Chris-- 20:19:35
　　對(duì),繞開語義是必須得,google完全繞開了語義.
冰云- 20:19:36
　　就是說，我和pr高的page做鏈接我的pr也會(huì)提高
╃(Chris-- 20:20:08
　　冰云說得對(duì),這個(gè)非常明顯
╃(Chris-- 20:20:30
　　但是也要和對(duì)方給出來得連接數(shù)量有關(guān)
陸地孤帆- 20:21:06
　　我想問一下跨語言跨字符集的搜索怎么實(shí)現(xiàn)的？
　　比如我們輸入中文，卻能查到行相似關(guān)鍵字的繁體中文，甚至日問韓問資料？
base- 20:21:15
　　對(duì),繞開語義是必須得,google完全繞開了語義.
　　
　　但是這樣一來，只是關(guān)鍵字分析的話，那么相似性分析就會(huì)有很大偏差了
╃(Chris-- 20:22:05
　　但是效果來看,google并不差,實(shí)際上全文檢索引擎+page rank可以做得很好. 語義并不是
　　想象中那么容易處理. 往往1%得誤差,會(huì)造成10%的錯(cuò)誤放大.
base- 20:22:40
　　當(dāng)然，語義分析到現(xiàn)在也解決的不好，很難
╃(Chris-- 20:23:21
　　跨語言,跨字符集. 這個(gè)有一個(gè)翻譯的對(duì)應(yīng)詞典. 會(huì)在索引階段就處理這個(gè)問題. 比如簡體
　　和繁體的對(duì)應(yīng). 但是google沒有做簡體對(duì)英文的對(duì)應(yīng),因?yàn)檫@是屬于機(jī)器翻譯的問題,而不
　　是簡單的對(duì)應(yīng)問題.
冰云- 20:23:55
　　不是通過unicode么？
base- 20:24:13
　　page rank+全文檢索，這個(gè)問題需要討論一下，有點(diǎn)不清楚
╃(Chris-- 20:24:27
　　對(duì),簡體,繁體,可以通過unicode
╃(Chris-- 20:25:00
　　但是which unicode對(duì)應(yīng)which unicode 還是應(yīng)該有個(gè)對(duì)應(yīng).
農(nóng)民 - Javen- 20:25:41
　　還有沒有回答的：
　　
crane- 20:12:27
　　關(guān)心多線程的檢索方式
╃(Chris-- 20:25:48
　　google的本質(zhì)是全文索引+page rank. 沒有語義,沒有分詞. 但是效果很不錯(cuò).
╃(Chris-- 20:26:10
　　crane,能把問題說清楚些么? 多線程的檢索方式?
╃(Chris-- 20:26:34
　　你是問多用戶并發(fā)檢索的情況如何處理?
crane- 20:26:49
　　就是多線程如何處理不重復(fù)
crane- 20:27:05
　　如何保證不重復(fù)檢索網(wǎng)頁
crane- 20:27:36
　　我曾經(jīng)做過爬網(wǎng)站的程序，這個(gè)是我遇到的最復(fù)雜的問題
╃(Chris-- 20:27:59
　　應(yīng)該是crawler如何不重復(fù)下載網(wǎng)頁吧?最簡單的方法,就是我前面提到的:
　　比如,一個(gè)很簡單的分布式,就是一個(gè)線程下載一個(gè)網(wǎng)站,一臺(tái)服務(wù)器處理一個(gè)ip段.
　　
　　
╃(Chris-- 20:28:42
　　具體,如果是在一個(gè)網(wǎng)站也采用多線程處理,那么實(shí)現(xiàn)方式上來講,會(huì)有一個(gè)隊(duì)列,來存儲(chǔ)已
　　經(jīng)處理過的頁面. 然后新處理的頁面要比較一下隊(duì)列里的頁面.
農(nóng)民 - Javen- 20:28:52
　　但 matrix 會(huì)同時(shí)有上千個(gè) google 線程來 dance
╃(Chris-- 20:29:07
　　對(duì),上面講到了解決方法.
╃(Chris-- 20:29:14
　　會(huì)有一個(gè)隊(duì)列.
crane- 20:29:25
　　一個(gè)線程下載一個(gè)網(wǎng)站，我倒，因?yàn)槲疫@個(gè)程序是就一個(gè)機(jī)器，我的PC
crane- 20:29:36
　　有沒有其他的辦法
crane- 20:29:59
　　算法推薦也好
base- 20:30:03
　　就是一個(gè)網(wǎng)段一個(gè)網(wǎng)段的排吧
base- 20:30:10
　　不會(huì)重復(fù)網(wǎng)站了
╃(Chris-- 20:30:16
　　如果是n個(gè)線程處理一個(gè)網(wǎng)站,那么就是我上面提到的方法啊.
╃(Chris-- 20:30:27
　　會(huì)有一個(gè)隊(duì)列,來存儲(chǔ)已經(jīng)處理過的頁面. 然后新處理的頁面要比較一下隊(duì)列里的頁面.
　　
　　
　　
╃(Chris-- 20:30:36
　　所有線程共享這個(gè)隊(duì)列.
╃(Chris-- 20:30:43
　　這是最簡單的方法.
crane- 20:31:03
　　哦，明白了，謝謝
╃(Chris-- 20:31:05
　　在n個(gè)線程處理一個(gè)網(wǎng)站,當(dāng)然也可以有一些更聰明的調(diào)度方法,
╃(Chris-- 20:31:24
　　具體以后再聊聊.
╃(Chris-- 20:31:29
　　還有其他問題么?
crane- 20:31:33
　　更聰明的是什么，剛才你說的一個(gè)隊(duì)列和我的想法是一樣的價(jià)值不大
冰云- 20:31:42
　　pr這東西對(duì)個(gè)人網(wǎng)站到底有沒有意義呢？
base- 20:32:03
　　以前偶查東西的時(shí)候是IP段來，一個(gè)IP一個(gè)IP的來過
crane- 20:32:08
　　更聰明算法的我以后找你可以么
╃(Chris-- 20:32:19
　　價(jià)值不大?但是你必須實(shí)現(xiàn)啊. 其他算法以后我們可以探討一下.
╃(Chris-- 20:32:38
　　pr值我覺得還是挺重要,起碼再google排名上氣的是關(guān)鍵性的作用.
冰云- 20:32:56
　　左邊的排名是排的PR?
base- 20:32:58
　　我還是不明白，page rank + 全文檢索，如何處理的相似性問題，就是重要性問題，舉個(gè)
　　例子如何？
╃(Chris-- 20:33:07
　　google帶來的訪問量,目前來講是在60%以上.
農(nóng)民 - Javen- 20:33:56
　　我們?cè)谕粋€(gè)數(shù)據(jù)庫里檢索數(shù)據(jù)都要考慮速度問題，google 是怎么樣保證他的檢索速度的？
　　同一個(gè)關(guān)鍵詞的搜索，他需要從 N 個(gè)服務(wù)器上去拿數(shù)據(jù)，而且上面說到的，可能是打開文
　　本文件來獲得數(shù)據(jù)。
方片- 20:34:14
　　為什么在GOOGLE中搜索，當(dāng)你翻了很多頁時(shí)會(huì)經(jīng)常出現(xiàn)重復(fù)的頁面鏈接？
╃(Chris-- 20:34:25
　　base,可以看看page rank算法.
base- 20:35:03
　　哦，謝謝，偶去望一下
charbee- 20:35:18
　　weblucene怎么用呀？
郁也風(fēng)- 20:36:00

base- 20:36:12
　　you can use English,haha....
╃(Chris-- 20:36:12
　　javen,這個(gè)就是分布式全文索引的效率問題,效率上來講,這個(gè)會(huì)很迅速,特別是海量數(shù)據(jù)的
　　處理上,會(huì)比傳統(tǒng)的數(shù)據(jù)庫快n倍.對(duì)google來講,檢索一次,也就是讀幾個(gè)文件,本地傳輸2次
　　數(shù)據(jù).速度完全可以保證
郁也風(fēng)- 20:36:33
　　English is my weakest link
╃(Chris-- 20:36:44
　　charbee,weblucene我沒有用過,希望下次我們可以把車東請(qǐng)過來給大家講講這個(gè)東西,呵呵.
　　javen可以聯(lián)系一下
base- 20:37:01
　　try Wan neng Wubi :)
crane- 20:37:16
　　嘩~~~~ 鼓掌~~
郁也風(fēng)- 20:37:23
　　welcome:)
charbee- 20:37:29
　　好，
阿古- 20:37:36
　　鼓掌！
拓拔濤- 20:37:36
　　
冰云- 20:37:43
　　車東現(xiàn)在在美國培訓(xùn)
KIKI- 20:37:45
　　
Server- 20:37:46
　　em14
base- 20:37:52
　　
農(nóng)民 - Javen- 20:38:01
　　檢索一次,也就是讀幾個(gè)文件,本地傳輸2次數(shù)據(jù).
　　
　　這個(gè)可以細(xì)化一下？？？
Server- 20:38:03
　　em13
charbee- 20:38:14
　　lucene呢，講講原碼核心部分也好。
╃(Chris-- 20:38:17
　　javen,這個(gè)和google的具體索引實(shí)現(xiàn)有關(guān).
農(nóng)民 - Javen- 20:38:27
　　警告： base Server
　　
　　不要發(fā)這種東西。   否則立馬清除！
base- 20:38:36
　　
真神- 20:38:40
　　這個(gè)是否是index engine部分的內(nèi)容了?
╃(Chris-- 20:38:46
　　lucene源碼核心我也想講講,但是時(shí)間不是很允許.
╃(Chris-- 20:38:56
　　對(duì),下面我們講講index engine
charbee- 20:39:04
　　呵呵，好。
crane- 20:39:06
　　lucene源碼核心放到最后講如何
charbee- 20:39:11
　　好。
crane- 20:39:17
　　好
╃(Chris-- 20:39:30
　　現(xiàn)在已經(jīng)快一個(gè)小時(shí)了,我得手要斷了,哈哈
charbee- 20:39:44
　　page rank 還沒有講完，我的一個(gè)普通網(wǎng)頁的網(wǎng)站，怎么提高page rank
農(nóng)民 - Javen- 20:39:51
　　要不休息一會(huì)兒吧。大家自由聊聊。
crane- 20:39:52
　　挑戰(zhàn)體能極限，我們都支持你
crane- 20:40:05
　　好哈，休息
郁也風(fēng)- 20:40:07

╃(Chris-- 20:40:14
　　charbee:
　　1. 找盡量多的網(wǎng)頁為你做鏈接指向你.
KIKI- 20:40:17
　　吃塊瓜,
農(nóng)民 - Javen- 20:40:22
　　charbee :   這個(gè)倒是個(gè)實(shí)在的問題啊。
　　
　　我的 blog 今天看到了 3 了。哈哈
charbee- 20:40:42
　　呵呵。
冰云- 20:40:45
　　我之前是5，現(xiàn)在下降到4，估計(jì)和我有情鏈接增多有關(guān)
郁也風(fēng)- 20:40:45
　　my pr value is zero
crane- 20:41:05
　　怎么看5 3呀
冰云- 20:41:10
　　google bar
charbee- 20:41:10
　　我的也是0
crane- 20:41:14
　　pr指數(shù)在哪里看？
╃(Chris-- 20:41:20
　　增多是不會(huì)減少pr的. pr只和指向你的鏈接有關(guān).
郁也風(fēng)- 20:41:20
　　my link‘s type is ?abc=***
╃(Chris-- 20:41:31
　　下載一個(gè)google的bar就可以看到
　　
　　
　　
╃(Chris-- 20:42:52
　　下面我們繼續(xù)index engine
crane- 20:43:10
　　好，謝謝
charbee- 20:43:25
　　農(nóng)民我的blog玩不了了：
　　http://www.matrix.org.cn/blog/char/
charbee- 20:43:46
　　繼續(xù) index engine
　　好像lucene就是用 index engine
╃(Chris-- 20:44:09
　　東西抓下來之后，除了存儲(chǔ)起來，就是要進(jìn)行索引了，這就是Index engine要做的事情。
　　這里我們的索引都是指完全的全文索引，而不是只對(duì)字的索引，或者只對(duì)詞的索引。有些
　　國內(nèi)的檢索引擎是對(duì)字的索引或者對(duì)詞的索引，或者兩者的結(jié)合。
KIKI- 20:44:11
　　好像也有search engine吧?
╃(Chris-- 20:44:48
　　其實(shí)，我們平時(shí)用的lucene就是一個(gè)索引引擎，但是不支持分布式。而且，索引壓縮算法
　　還有其他方面還存在一些問題不適合大型搜索引擎使用，但是對(duì)于一般通常的應(yīng)用來講應(yīng)
　　該是沒有什么問題。
╃(Chris-- 20:45:39
　　關(guān)于index engine，有幾個(gè)問題比較關(guān)鍵：
╃(Chris-- 20:46:30
　　1．一般來講，因?yàn)閿?shù)據(jù)量是很大，所以索引的容量也會(huì)很大，一般來講，數(shù)據(jù)量和索引量
　　的比例會(huì)是1：1。所以，索引的存儲(chǔ)也會(huì)是分布式的。比如google，用來存儲(chǔ)索引的服務(wù)
　　器大概有1000多臺(tái)。google用的是什么算法是沒有公布，起碼我是沒有找到。最簡單的索
　　引就是倒排索引,lucene就是用的這個(gè).
╃(Chris-- 20:48:51
　　2．Index engine 必須支持增量索引，而且增量索引速度應(yīng)該很快。這個(gè)問題，通常的解
　　決方法，是為新增的數(shù)據(jù)新建一個(gè)新的索引塊，然后在一定時(shí)間，將這個(gè)新的索引塊并入
　　舊的索引塊。比如lucene里就是這么做的。
╃(Chris-- 20:50:55
　　3．索引有一個(gè)壓縮的問題，因?yàn)橥ǔ?shù)據(jù)量和索引量的比例會(huì)是1：1，如果壓縮算法做的
　　比較好的話，應(yīng)該可以得到更好的一個(gè)比例。lucene這方面做的比較一般.
╃(Chris-- 20:51:29
　　4.還有就是多語言的問題,索引必須支持多語言.現(xiàn)在unicode可以很好的解決這個(gè)問題
╃(Chris-- 20:52:55
　　5.索引的結(jié)構(gòu)還必須為檢索,相似性分析,等等提供良好的計(jì)算接口.比如google和baidu的
　　類似網(wǎng)頁,為了很快找到類似網(wǎng)頁,這些數(shù)據(jù)也必須放到索引里面去.
╃(Chris-- 20:53:57
　　6.當(dāng)然,支持doc,excel,ps 等多種文件格式,這個(gè)是基本的東西了
　　
Join- 20:54:19
　　怎么把數(shù)據(jù)放入索引哦？
　　
Join- 20:54:27
　　添加索引？？
╃(Chris-- 20:54:29
　　就是通過索引引擎.
Join- 20:54:44
　　沒聽過
╃(Chris-- 20:54:56
　　數(shù)據(jù)下載下來,出發(fā)索引引擎,索引引擎分析數(shù)據(jù),添加到索引庫.
╃(Chris-- 20:55:48
　　index engine 介紹完了.大家自己提問
╃(Chris-- 20:55:52
　　自由提問
方片- 20:57:51
　　時(shí)間太短，講的東西太深，聽不大懂，Chris能不能花點(diǎn)時(shí)間將今天的講座整理成一篇文檔，
　　以便慢慢學(xué)習(xí)啊
農(nóng)民 - Javen- 20:58:11
　　坦率地說，我沒有太明白“全文”索引的意思。對(duì)象不是字、詞，是全文？
　　
　　一般意義上的索引對(duì)象都是關(guān)鍵字。
╃(Chris-- 20:58:15
　　呵呵.好啊.完了會(huì)整理放到網(wǎng)上.
阿古- 20:58:23
　　就是阿
　　感覺很復(fù)雜
　　很多算法沒有接觸到
農(nóng)民 - Javen- 20:58:34
　　我會(huì)整理好記錄的。我已經(jīng)在整理了。   會(huì)完后馬上可以放到網(wǎng)絡(luò)上。
charbee- 20:58:54
　　最好有實(shí)際點(diǎn)的東西比較好，有這樣有什么好，沒有這樣有什么好。
crane- 20:58:55
　　是哈，這個(gè)東西太深了，而且涉及的方面可真多
KIKI- 20:59:01
　　主要是沒學(xué)過九陽神功,要不小KS
╃(Chris-- 20:59:07
　　對(duì),全文檢索不是對(duì)關(guān)鍵字,是對(duì)全文.
　　比如"我是中國人",檢索"是中",也可以檢索到就是全文檢索
郁也風(fēng)- 20:59:25

base- 20:59:34
　　這里應(yīng)該是page rank的內(nèi)容了吧？
阿古- 20:59:45
　　你可以寫拼音嘛１
base- 20:59:49
　　you can download the 萬能五筆
wuyu- 20:59:52
　　能不能再介紹一下索引中的分詞處理，比如中文同義詞處理？
郁也風(fēng)- 21:00:24
　　I‘m downloading MS ime,76MB
wuyu- 21:00:25
　　如果搜“毛主席”，帶著“毛澤東”、“毛潤芝”之類的信息也能檢索出來？
crane- 21:00:28
　　Chris 隨便找個(gè)你認(rèn)為最有價(jià)值的方面，詳細(xì)講講吧
╃(Chris-- 21:00:41
　　google對(duì)索引,不會(huì)做分詞處理的.所以不會(huì)對(duì)同義詞進(jìn)行處理. baidu會(huì)做處理.
base- 21:00:52
　　萬能五筆 is little, just less than 5M
墮入凡間的雨- 21:01:13
　　這樣的處理豈不是很復(fù)雜
crane- 21:01:24
　　google現(xiàn)在能處理拼音了
wuyu- 21:01:31
　　是啊，baidu、trs、慧聰之類的國內(nèi)廠商所吹的，也就是基于漢語言的切分詞技術(shù)
wuyu- 21:01:58
　　中文切分詞過程大致的原理？
crane- 21:02:00
　　trs 不是國內(nèi)的吧
wuyu- 21:02:11
　　國內(nèi)的，易寶嘛
╃(Chris-- 21:02:13
　　trs是港資的,但是主力是國內(nèi)的
╃(Chris-- 21:02:24
　　北京信息工程學(xué)院的
charbee- 21:02:34
　　Chris，你在trs做嗎？
╃(Chris-- 21:02:40
　　慧聰嗎,呵呵..我呆過一段時(shí)間.
wuyu- 21:02:49
　　呵，主要是trs比較便宜，好象trs server才8萬。
╃(Chris-- 21:02:57
　　不在trs啊? 這個(gè)不是我的專業(yè),只是我的愛好.
crane- 21:04:36
　　基于漢語言的切分詞技術(shù)，    維護(hù)同義詞字典？
wuyu- 21:04:47
　　慧聰吹的有一個(gè)東西是內(nèi)嵌在關(guān)系數(shù)據(jù)庫內(nèi)的全文，trs、百毒、lucene都是另起專門的全
　　文庫，這兩種方式有什么優(yōu)缺點(diǎn)？
農(nóng)民 - Javen- 21:05:20
　　因?yàn)?google 根本不去管什么分詞、語義，而 baidu 、慧聰什么的在玩一點(diǎn)，所以說他們
　　技術(shù)比 google 高，說什么第三代、第四代搜索技術(shù)？
bill-過兒- 21:06:05
　　感謝！我來晚了！
base- 21:06:22
　　唉，語義分析，
KIKI- 21:06:27
　　暈,現(xiàn)在才來?
農(nóng)民 - Javen- 21:06:36
　　感謝大家支持！
　　
　　1、自由發(fā)言：大家悠著點(diǎn)，不要太著急啊。剛開始請(qǐng)盡量由主講發(fā)言吧；
　　
　　2、一點(diǎn)限制：主講人與管理員的字體顏色為紅色，請(qǐng)大家使用黑色或者藍(lán)色，并且請(qǐng)大家
　　字體不要超過5號(hào)；
crane- 21:06:46
　　自然語言語義分析可有的玩了
wuyu- 21:06:49
　　我是覺得中文切分詞很關(guān)鍵啊，如果用lucene的自動(dòng)切分詞，能夠滿足“查全”的要求，
　　但是實(shí)際應(yīng)用中，更加需要“查準(zhǔn)”啊，你出一萬條垃圾信息還不如出一條用得著的信息好
bill-過兒- 21:07:25
　　是啊，聚了一下會(huì)！
╃(Chris-- 21:07:29
information retrieval-的技術(shù)會(huì)越來越多的應(yīng)用到搜索引擎里面.比如,排重,
　　相似性分析,用戶愛好分析,問題回答性質(zhì).等等. 但是,這都要以一定的準(zhǔn)確性為基礎(chǔ),如果
　　技術(shù)不成熟,就只能是放在實(shí)驗(yàn)室的產(chǎn)品.
charbee- 21:07:29
　　有沒有實(shí)用點(diǎn)的技巧？
crane- 21:07:33
　　切分詞技術(shù) 方便解釋一下么
郁也風(fēng)- 21:08:00
　　切分詞? I‘m late, what is 切分詞?wuyu?
bill-過兒- 21:08:22
　　繼續(xù)
charbee- 21:08:28
　　車東有篇文章講切分詞。
wuyu- 21:08:32
　　郁也風(fēng)，拆分為“郁也”“也風(fēng)”，lucene就是用這種自動(dòng)切分詞手段的，兩字兩字一切分。
crane- 21:08:45
　　哦，明白了，謝謝
郁也風(fēng)- 21:08:57
　　i see:)
wuyu- 21:09:31
　　英文好切分，見空白符就切成word了，中文就沒邊界。"this is"，明顯的兩個(gè)詞，但是
　　“郁也風(fēng)”，你讓計(jì)算機(jī)去判斷判斷用了幾個(gè)詞？
crane- 21:09:40
　　我想，應(yīng)該切分有意義的詞吧
╃(Chris-- 21:09:46
　　切分詞,對(duì)英文是不存在這個(gè)分詞的問題,因?yàn)榭崭窬褪怯⑽膯卧~的分隔符..
　　但是中文就有,比如 "我馬上從馬上下來",計(jì)算機(jī)存在識(shí)別困難. 現(xiàn)在,通過一定的技術(shù),基
　　于語料庫,可以達(dá)到比較好的效果.
crane- 21:10:07
　　哈哈，這個(gè)例子好玩
墮入凡間的雨- 21:10:29
　　語料庫是什么？
crane- 21:10:33
　　語料庫是什么，不只是詞典吧，還有什么
base- 21:10:37
　　又到了語義分析上了，唉，誰能三言兩語說明白，老朽會(huì)佩服死去活來的
bill-過兒- 21:11:02
　　對(duì)不起噢！
　　
charbee- 21:11:09
　　http://www.chedong.com/tech/lucene.html#segment
Word Segment-
bill-過兒- 21:11:13
　　可以了
╃(Chris-- 21:11:16
　　語料庫是一些,已經(jīng)處理好的標(biāo)注文章, 比如把人民日?qǐng)?bào)2年的文章分詞標(biāo)注好. 然后基于
　　這個(gè)語料庫來處理分詞.
bill-過兒- 21:11:25
　　調(diào)整好了
crane- 21:11:29
　　這么智能呀
╃(Chris-- 21:11:41
　　語料庫是手動(dòng)做的.
base- 21:11:49
　　這個(gè)查詢數(shù)據(jù)量，大了去了，有什么相關(guān)算法？
crane- 21:11:59
　　想當(dāng)于先給機(jī)器人學(xué)知識(shí)，然后他去做舉一反三的工作？
╃(Chris-- 21:11:59
　　這個(gè)建索引,速度還不錯(cuò).
╃(Chris-- 21:12:06
　　crane說對(duì)了
crane- 21:12:41
　　哇，太夸張了，現(xiàn)在的技術(shù)可真厲害，估計(jì)性能是個(gè)不小的問題
base- 21:12:45
　　呵呵
墮入凡間的雨- 21:13:18
　　也就是將常用詞語做庫！然后在語法切分時(shí)根據(jù)庫做比較？
真神- 21:13:32
　　這個(gè)深入下去估計(jì)是AI方面的內(nèi)容了
base- 21:13:42
　　不用深入，已經(jīng)是了
╃(Chris-- 21:13:46
　　不僅僅這么簡單,是對(duì)一些文章進(jìn)行分詞并進(jìn)行詞性標(biāo)注.
╃(Chris-- 21:14:10
　　先手動(dòng)做,然后讓機(jī)器在這個(gè)基礎(chǔ)上對(duì)其他文章自動(dòng)分詞
墮入凡間的雨- 21:14:41
　　也就是叫機(jī)器去讀文章！
╃(Chris-- 21:14:46
　　對(duì).
╃(Chris-- 21:14:58
　　這些都是ir,nlp范疇的東西,呵呵
真神- 21:15:29
　　說到這里我想起電影《AI》里小機(jī)器人去游樂場問問題那一幕
╃(Chris-- 21:15:32
　　所以說,搜索引擎是一項(xiàng)非常豐富的技術(shù).會(huì)牽涉很多領(lǐng)域

╃(Chris-- 21:15:45
　　下面我們繼續(xù) search engine
　　
墮入凡間的雨- 21:16:05
　　如果庫的文件不是很大，倒是為未來的電腦語音系統(tǒng)提供了很好的內(nèi)容
農(nóng)民 - Javen- 21:16:48
　　第三個(gè)部分內(nèi)容：
base- 21:16:52
　　如果語義分析解決了，不是領(lǐng)域問題，是對(duì)人類的一大貢獻(xiàn)哦
╃(Chris-- 21:17:13
　　索引建好之后,就是為了search 服務(wù)了.
　　通常流程是這樣的,用戶發(fā)出請(qǐng)求 <-> search engine<-> index server
╃(Chris-- 21:18:06
　　對(duì)于檢索引擎,search engine,有以下關(guān)鍵問題:
　　1. 檢索結(jié)果的排序問題,這個(gè)其實(shí)前面的page rank做了很多鋪墊的
╃(Chris-- 21:18:58
　　一些新的嘗試,比如對(duì)用戶偏好的分析之類的,都可以運(yùn)用在這里,對(duì)不同偏好的用戶采用不
　　同的排序策略
╃(Chris-- 21:19:37
　　2.檢索結(jié)果的排重問題,就是排除重復(fù)的結(jié)果.這個(gè)算法很重要,因?yàn)椴粌H是準(zhǔn)確性的問題,
　　還有就是速度問題.
╃(Chris-- 21:20:06
　　3.檢索結(jié)果的相似性分析問題,這個(gè)和上面的為那提比較類似. 主要用在類似網(wǎng)頁里面
╃(Chris-- 21:21:04
　　4.檢索的速度問題.這個(gè)主要是靠前面的索引結(jié)構(gòu)決定.當(dāng)然,很多技術(shù)可以用來提升速度,
　　比如分布式cache
╃(Chris-- 21:21:23
　　大概就這么幾個(gè)問題..
╃(Chris-- 21:21:26
　　大家自由發(fā)言.
wuyu- 21:21:52
　　能不能講講二次檢索？
crane- 21:22:06
　　感覺問題好象應(yīng)該在入倉的時(shí)候就該解決
crane- 21:22:15
　　感覺排重問題好象應(yīng)該在入倉的時(shí)候就該解決
╃(Chris-- 21:22:27
　　二次檢索很簡單,其實(shí)就是和第一次檢索的東西作一次and
bill-過兒- 21:22:38
　　檢索結(jié)果的排重問題,就是排除重復(fù)的結(jié)果.這個(gè)算法很重要,
　　這個(gè)要自己開發(fā) 嗎？
╃(Chris-- 21:22:48
　　對(duì),排重的問題,很多會(huì)在入庫的時(shí)候解決.
wuyu- 21:22:50
　　但是二次檢索對(duì)性能的影響？一般搜索引擎是怎么處理的？
╃(Chris-- 21:23:29
　　性能影響不大...對(duì)于優(yōu)秀的搜索引擎來講,一般的布爾表達(dá)式都不會(huì)是大問題
╃(Chris-- 21:23:54
　　二次檢索也只是為布爾表達(dá)式加了一個(gè)and
╃(Chris-- 21:24:09
　　排重當(dāng)然要自己開發(fā)拉?
wuyu- 21:24:44
"上一次的" AND 關(guān)鍵詞），然后進(jìn)行“全新”的檢索？
╃(Chris-- 21:25:16
　　這只是一種實(shí)現(xiàn)方式, 就是這種方式,解決起來也是完全可行的.當(dāng)然,有更好的方式,比如放到cache里,然后檢索cache等.
wuyu- 21:25:21
　　我暈死，呵呵，我還一直以為采用了某些手段，比如做了cache
╃(Chris-- 21:25:57
　　呵呵.
郁也風(fēng)- 21:26:45
　　"上一次的" AND 關(guān)鍵詞-it‘s like my method:)
╃(Chris-- 21:26:59
　　呵呵
wuyu- 21:27:07
　　我是關(guān)鍵數(shù)據(jù)庫的檢索時(shí)被人逮著問二次檢索的，那家伙硬是把我用的trsserver提供全文和我業(yè)務(wù)后臺(tái)管理時(shí)從關(guān)系數(shù)據(jù)庫做檢索混起來，非讓我明白的告訴他支持不支持二次檢索，是怎么支持的，暈啊
農(nóng)民 - Javen- 21:27:11
　　大家還有問題嗎？    要不今天暫時(shí)到這里？
SS- 21:27:24
　　問個(gè)問題
SS- 21:27:35
　　比如剛才因?yàn)楹芏鄾]有看到
╃(Chris-- 21:27:42
　　wuyu,你這個(gè)問題必須放到cache里.
農(nóng)民 - Javen- 21:27:43
　　chris 應(yīng)該是比較累了。呵呵。   狂敲鍵盤一個(gè)半小時(shí)了。
KIKI- 21:27:44
　　急什么?? 都這么有熱情勁兒
╃(Chris-- 21:27:52
　　哈哈
JAVA神化- 21:27:58
　　
SS- 21:27:59
　　比如我檢索一個(gè)條件是 xx=123 and test=234
bill-過兒- 21:28:04
　　唉！我還沒聽夠那！
SS- 21:28:07
　　一般做法是不是分2次檢索
JAVA神化- 21:28:09
　　
charbee- 21:28:11
　　呵呵。我們要考慮怎么把技術(shù)變成實(shí)用。
crane- 21:28:19
　　一般的大型企業(yè)應(yīng)用系統(tǒng)中，哪些地方可以用到Lucene呢
SS- 21:28:29
　　先檢索出xx=123然后在結(jié)果集中test=234
╃(Chris-- 21:28:39
　　ss,這個(gè)要看索引結(jié)構(gòu),如果索引結(jié)構(gòu)好,不用兩次檢索,可以一次掃描就解決
wuyu- 21:28:40
　　我是含糊過的，反正我關(guān)系數(shù)據(jù)庫的檢索是根據(jù)我定義的Filter做了cache，而他們大量用
　　檢索的時(shí)候是跑我trs server來檢索的，懶得理他，呵呵
crane- 21:29:35
　　學(xué)了這么多，手癢癢，想用用，在哪里能用這些技術(shù)
charbee- 21:29:55
　　好呀。最好能有些效果可以看看
墮入凡間的雨- 21:30:04
　　資源系統(tǒng)里面較為常用
╃(Chris-- 21:30:28
　　開發(fā)搜索引擎的時(shí)候,或者處理海量數(shù)據(jù)的時(shí)候.
墮入凡間的雨- 21:30:38
　　而且資源系統(tǒng)中的數(shù)據(jù)量一般也是比較大的
╃(Chris-- 21:31:09
　　搜索引擎也會(huì)是將來的一個(gè)方向,專業(yè)化,個(gè)性化的搜索引擎
crane- 21:31:14
　　感覺搜索引擎是非常有錢途的東東
KIKI- 21:31:31
　　呵呵,沒錢途誰學(xué)呀
wuyu- 21:31:49
　　我這邊更多的應(yīng)用是從關(guān)系數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入全文庫，然后再提供出來做檢索。
　　
　　不過有一個(gè)問題很煩，就是關(guān)系數(shù)據(jù)庫（或是google的某個(gè)網(wǎng)頁）做了變更、刪除以后全
　　文庫的同步問題？
　　1、是更新后立即刷新全文完成同步，還是通過定時(shí)任務(wù)進(jìn)行同步？
　　2、如果是定時(shí)任務(wù)，是增量更新方式來完成同步，還是完全復(fù)制的同步？
bill-過兒- 21:31:49
　　
╃(Chris-- 21:31:51
　　對(duì),前段時(shí)間萬網(wǎng)老總就做了一次秀,關(guān)于搜索引擎
crane- 21:32:01
　　以前是信息就是金錢，現(xiàn)在是信息太多，摘得出來才是金錢
阿古- 21:32:21
　　嗯　
墮入凡間的雨- 21:32:27
　　還有個(gè)問題，如果使用存儲(chǔ)過程，在查詢速度上會(huì)有很大的提升，但是如果考慮跨平臺(tái)的
　　使用，使用SQL語法有什么好的建議
SS- 21:32:50
　　要看是什么系統(tǒng)了
wuyu- 21:33:12
　　對(duì)于google來說，原始網(wǎng)站和全文庫的不同步是可以允許的，但是對(duì)于小型應(yīng)用來說，原
　　始關(guān)系數(shù)據(jù)庫和全文庫的不同步或是同步不及時(shí)，就是很難容忍的了，嗚嗚
SS- 21:33:16
　　我覺得這種核心思想應(yīng)該是夠用則可
╃(Chris-- 21:33:28
　　小型應(yīng)用,我覺得立即同步刷新就行了.
SS- 21:33:28
　　就是說如果現(xiàn)有的速度夠用，就不要用存儲(chǔ)過程
墮入凡間的雨- 21:33:42
　　資源！應(yīng)該是小學(xué)到高中的全部資源或者更多
SS- 21:33:52
　　如果不夠，在需要的地方加，此時(shí)不用顧慮移植問題
wuyu- 21:34:26
　　基于事件觸發(fā)的機(jī)制，在關(guān)系數(shù)據(jù)庫完成更新操作后立即通知全文庫做內(nèi)容更新同步操作？
╃(Chris-- 21:34:39
　　對(duì),小型應(yīng)用應(yīng)該這樣
墮入凡間的雨- 21:35:24
　　這一步的更新是通過觸發(fā)器來實(shí)現(xiàn)？？？
╃(Chris-- 21:35:44
　　是觸發(fā)機(jī)制,不是觸發(fā)器
╃(Chris-- 21:36:07
　　trigger比較局限
crane- 21:37:01
　　關(guān)于搜索引擎的未來，關(guān)于全球海量信息，會(huì)不會(huì)有這樣的問題，就是計(jì)算機(jī)的性能發(fā)展比信息量增加的快，因?yàn)闅v史資料是有限的，新的文字資料要人工寫的
　　對(duì)于文字的檢索也許將來的性能不是問題？??？有沒有這種可能
　　
wuyu- 21:37:05
　　事件觸發(fā)，我不一定是觸發(fā)器的，可是是對(duì)一個(gè)數(shù)據(jù)實(shí)體做一個(gè)動(dòng)作以后觸發(fā)，或是完成一系列的動(dòng)作，也就是完成一個(gè)業(yè)務(wù)處理以后做觸發(fā)
SS- 21:37:14
　　不可能的
SS- 21:37:25
　　信息的發(fā)展是爆炸性的
SS- 21:37:49
　　這是指數(shù)級(jí)別的增長
crane- 21:37:51
　　爆炸的信息文字誰來寫，要人來寫的
SS- 21:38:07
　　而計(jì)算機(jī)性能是倍數(shù)級(jí)的
SS- 21:38:13
　　很多信息不需要人工輸入的
墮入凡間的雨- 21:38:14
　　解決問題的方式也是！
bill-過兒- 21:38:23
　　可以發(fā)明說話轉(zhuǎn)換成字阿
crane- 21:38:30
　　什么信息不需要人工輸入呀
╃(Chris-- 21:38:34
　　呵呵,這個(gè)也沒有辦法,你必須作出一個(gè)犧牲,it is a tradeoff.
SS- 21:38:37
　　很多，比如統(tǒng)計(jì)數(shù)據(jù)
crane- 21:38:54
bill-過兒- 21:38:23
　　可以發(fā)明說話轉(zhuǎn)換成字阿
　　
　　哦，對(duì) ，這樣信息量就大了去了
SS- 21:39:16
　　還有比如探測器取得的信息
crane- 21:39:24
　　不過，同樣面臨著一個(gè)問題，一年內(nèi)一個(gè)人說話是有限的
SS- 21:39:30
　　不一定是說話
╃(Chris-- 21:39:31
　　今天的專題講座到這結(jié)束吧. 我們下次再見.多謝各位的支持.希望matrix能有更多的高手加入進(jìn)來.歡迎你們.
crane- 21:39:33
　　那不是文字信息了，圖形的
wuyu- 21:39:34
"內(nèi)容"-;輸出的，或者是他的“鏈接”是由js、flash等手段來控制的，這種時(shí)候，spider常見的處理機(jī)制？有沒有簡單入門的算法？
SS- 21:39:46
　　圖形文字等等
crane- 21:39:52
　　暈，談?wù)勊阉饕娴奈磥戆?
╃(Chris-- 21:40:14
　　這個(gè)是html的分析問題,spider肯定有一個(gè)完整的html分析器.分析所有js,flash等,這個(gè)屬于program層面的東西了.呵呵.
crane- 21:40:18
　　技術(shù)，基礎(chǔ)，歷史，都講了，最后要談未來然后收功的
墮入凡間的雨- 21:40:21
　　圖形可以建立索引目錄呀！
╃(Chris-- 21:40:28
　　哈哈,未來無限美好!
╃(Chris-- 21:40:31
　　收工!
冰云- 21:40:41
　　
SS- 21:40:42
　　講了2個(gè)小時(shí)了
crane- 21:40:45
　　謝謝 Chris
SS- 21:40:45
　　不錯(cuò)
JAVA神化- 21:40:45
　　
拓拔濤- 21:40:46
　　
KIKI- 21:40:55
　　
wuyu- 21:40:57
　　按sun的說法，網(wǎng)絡(luò)就是計(jì)算機(jī)，搜索就是信息。
SS- 21:40:59
　　pppppppppppppppppp
SS- 21:41:05
　　大家鼓掌
wuyu- 21:41:07
　　
wuyu- 21:41:10
　　獻(xiàn)花
╃(Chris-- 21:41:11
　　太累,要不今晚接著把lucene的源碼講一遍,呵呵,下次吧.
墮入凡間的雨- 21:41:12
　　
JAVA神化- 21:41:13
　　明天去報(bào)到
　　聽說還要軍訓(xùn) 5
農(nóng)民 - Javen- 21:41:15
　　感謝 chris 的學(xué)識(shí)與努力，也感謝大家的支持！
　　
　　今天晚上到此為止。

本站僅提供存儲(chǔ)服務(wù)，所有內(nèi)容均由用戶發(fā)布，如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容，請(qǐng)點(diǎn)擊舉報(bào)。

九色国产,午夜在线视频,新黄色网址,九九色综合,天天做夜夜做久久做狠狠,天天躁夜夜躁狠狠躁2021a,久久不卡一区二区三区