農(nóng)民 - Javen- 19:50:30
感謝大家支持!
1、自由發(fā)言:大家悠著點(diǎn),不要太著急啊。剛開始請(qǐng)盡量由主講發(fā)言吧;
2、一點(diǎn)限制:主講人與管理員的字體顏色為紅色,請(qǐng)大家使用黑色或者藍(lán)色,并且請(qǐng)大家
字體不要超過5號(hào);
crane- 19:50:39
偶鼓掌先
老漁翁- 19:50:46
crane- 19:51:01
╃(Chris-- 19:51:05
hi,各位,現(xiàn)在開始吧.
charbee- 19:51:06
廣州好像已經(jīng)20:00啦
朱世杰℡- 19:51:27
GG
農(nóng)民 - Javen- 19:51:33
好了。 大家歡迎 chris , 也感謝大家的支持!
真神- 19:52:28
歡迎
╃(Chris-- 19:52:31
恩,多謝大家支持,我先自我介紹一下.我是chris,matrix打算在這個(gè)高手群里經(jīng)常展開一些專題性,技術(shù)含量比較高的專題討論,從來讓大家都能獲益。所以我今晚就拋磚引玉,希望以后大家也能踴躍報(bào)名.
╃(Chris-- 19:52:58
術(shù)業(yè)有專攻,誰也不會(huì)是十全十美的高手,但是能夠把自己專長的東西拿出來和大家分享,是一件很令人開心的事情
阿古- 19:53:04
鼓掌
nemo- 19:53:10
老漁翁- 19:53:19
冰云- 19:53:25
別刷屏!
╃(Chris-- 19:53:29
搜索引擎技術(shù)不是我的專業(yè),但是我的興趣,3年前我研究lucene源代碼從而對(duì)搜索引擎感
興趣,從而進(jìn)入了這個(gè)領(lǐng)域。
╃(Chris-- 19:53:53
我的專業(yè)是金融領(lǐng)域的一些算法研究和應(yīng)用,在香港,這方面比國內(nèi)還是要先進(jìn)一些,希
望下次能有機(jī)會(huì)給大家講講這方面的技術(shù)。
╃(Chris-- 19:54:02
言歸正傳,下面我們開始今天的專題討論。
╃(Chris-- 19:54:26
我會(huì)從結(jié)構(gòu)上和方向上做一些介紹,至于詳細(xì)的算法, 今晚因?yàn)闀r(shí)間原因我就不講那么詳
細(xì),具體有疑問大家在論壇發(fā)貼或者email和我聯(lián)系。
~~>.<~~- 19:55:12
good
!!
╃(Chris-- 19:55:19
先大概介紹一些搜索引擎吧,這里指的搜索引擎是指類似于www.google.com,www.baidu.com
這樣的搜索引擎.yahoo嚴(yán)格意義上,不具有一個(gè)完整的搜索引擎的全部東西.google是搜索
引擎的典范.
~~>.<~~- 19:55:20
有興趣。
╃(Chris-- 19:55:38
我今晚會(huì)大概介紹一下一個(gè)完整的搜索引擎的架構(gòu)以及用到的關(guān)鍵技術(shù).
╃(Chris-- 19:55:53
對(duì)一個(gè)搜索引擎來講, 比較傳統(tǒng)的架構(gòu)會(huì)是這樣的:
crawler - index engine - search engine
~~>.<~~- 19:55:53
怎么你打字超快啊。
crane- 19:55:58
up一下
Server- 19:56:17
不要說話,尊重一下
~~>.<~~- 19:56:22
~~>.<~~- 19:56:32
比掌聲??!
KIKI- 19:56:55
暈,不要說話,聽Chris大哥講
╃(Chris-- 19:56:58
crawler就是一個(gè)不斷從網(wǎng)上將網(wǎng)頁抓下來的一個(gè)引擎. index engine是一個(gè)索引引擎.
search engine就是檢索引擎.
╃(Chris-- 19:57:07
下面,我們先從crawler開始講.
wuyu- 19:57:59
呵,百度的spider,trs的雷達(dá),應(yīng)該都算crawler吧?
╃(Chris-- 19:58:18
Crawler是一項(xiàng)比較復(fù)雜的技術(shù),Standford有一些博士畢業(yè)論文的主題就是Crawler的算法.
╃(Chris-- 19:58:45
對(duì),但是就crawler來說,google無疑是做的最好的,具體也有很多數(shù)據(jù),包括覆蓋率,精確性等.
╃(Chris-- 19:59:18
stanford有一下顎關(guān)于crawler的paper,大家可以訪問
http://dbpubs.stanford.edu:8090/aux/index-en.html 里面有不少關(guān)于crawler的算法,
以及google的crawler的一些原型算法,當(dāng)然現(xiàn)在的google的crawler遠(yuǎn)遠(yuǎn)要復(fù)雜的多.
wuyu- 19:59:55
Crawler主要完成哪些工作?包不包括對(duì)html、script這類“無用”信息的處理?
╃(Chris-- 19:59:56
就一個(gè)crawler來說,比較復(fù)雜的技術(shù)在于:
charbee- 20:00:01
lucene跟google有什么關(guān)系嗎?
問題我先mark一下,等下chris講完了,再問
╃(Chris-- 20:00:21
有,lucene會(huì)在下面提到,lucene應(yīng)該屬于index engine部分的東西.
╃(Chris-- 20:00:27
就是中間的這部分.
wuyu- 20:00:36
lucene只是chris講的搜索引擎的一部分,負(fù)責(zé)全文檢索,而且lucene的切分詞是采用自動(dòng)
切分詞技術(shù)的
wuyu- 20:00:57
還是從crawler開始吧,不打岔了
╃(Chris-- 20:01:13
好,wuyu的問題很好,一會(huì)我們?cè)儆懻撘幌路衷~這個(gè)東西.
╃(Chris-- 20:02:27
繼續(xù)crawler的關(guān)鍵技術(shù):
1.分布式,多線程抓取.任務(wù)的調(diào)度問題. 因?yàn)閷?duì)于成千上萬的網(wǎng)頁, 如何不重復(fù)抓取, 又
不漏掉重要站點(diǎn), 是一個(gè)很關(guān)鍵的問題. 這里需要一個(gè)好的分布式算法,一個(gè)很好的任務(wù)
調(diào)度機(jī)制。
╃(Chris-- 20:03:17
具體的算法,這里就不聊了,每個(gè)算法都可以開一個(gè)專題來討論的,呵呵.
crane- 20:03:23
支持打岔
朱世杰℡- 20:03:39
能不能提一下那些算法
朱世杰℡- 20:04:34
INTRO即可
charbee- 20:05:49
lucene的最新版支持中文了嗎?
wuyu- 20:06:01
先整體介紹吧,對(duì)各部分的著重點(diǎn)提一下,最后大家再對(duì)具體的某些點(diǎn)做提問,畢竟搜索
引擎每一部分都可以開一大個(gè)專題來討論,在一個(gè)細(xì)節(jié)上陷進(jìn)去就難出來了
╃(Chris-- 20:06:02
算法,沒有固定的名字,因?yàn)檫@是一個(gè)特殊的領(lǐng)域,但是對(duì)于調(diào)度算法的研究,會(huì)基于傳統(tǒng)的
分布式調(diào)度算法來進(jìn)行.
KIKI- 20:06:18
不支持吧,weblucene支持,也是開源項(xiàng)目
charbee- 20:06:42
車東的開源,我知道。環(huán)境架不起來。
wuyu- 20:06:44
看吧,一扯就扯遠(yuǎn)了吧。讓chris繼續(xù)吧
╃(Chris-- 20:07:19
繼續(xù)crawler的關(guān)鍵技術(shù):
2.網(wǎng)頁重要性的評(píng)估, 這個(gè)很重要,因?yàn)閏rawler不會(huì)把所有網(wǎng)頁都抓下來,只會(huì)抓20%的網(wǎng)
頁下來,所以必須評(píng)估網(wǎng)頁的重要性,如何評(píng)估就顯得很重要.
╃(Chris-- 20:07:48
一般,評(píng)估技術(shù)會(huì)用到page rank算法.這是google發(fā)明的算法.
╃(Chris-- 20:08:11
Pagerank這里就不介紹的太詳細(xì)了,大家google一下有很多介紹的。大概說一下,就是通
過指向頁面A的鏈接數(shù)量和權(quán)重來判斷頁面A的rank 值。Matrix的page rank是5.0,是一個(gè)
中等的得分
╃(Chris-- 20:09:29
繼續(xù)crawler的關(guān)鍵技術(shù):
refresh policy-. 因?yàn)榫W(wǎng)頁抓下來之后,每經(jīng)過一段時(shí)間,crawler都必須更
新網(wǎng)頁,從而保證索引的網(wǎng)頁是最新的網(wǎng)頁。最簡單的更新策略就是把所有網(wǎng)頁重新下載
一次,但是這個(gè)耗費(fèi)的時(shí)間起碼是一個(gè)月,是heavy cost,不能被接受。所以,一個(gè)優(yōu)秀的
更新算法是一個(gè)crawler的根本。
╃(Chris-- 20:10:41
繼續(xù)crawler的關(guān)鍵技術(shù):
4.壓縮算法,Crawler抓下來的東西,會(huì)分布式的存儲(chǔ)在本地。一般來講,因?yàn)閿?shù)據(jù)量的龐
大,所以這里的存儲(chǔ)會(huì)有一個(gè)壓縮機(jī)制,從來減少總的存儲(chǔ)容量。包括將來在各個(gè)數(shù)據(jù)服
務(wù)器之間傳輸數(shù)據(jù),都是需要一個(gè)優(yōu)秀的壓縮算法,從來減少通訊帶來的帶寬負(fù)擔(dān)。
╃(Chris-- 20:11:10
關(guān)于crawler的介紹就完了,大家自由提問吧.提問完我們進(jìn)入index engine
base- 20:11:26
1. 分布式的運(yùn)算方式
2. 效率問題
3. 切詞
4. 相似性分析
5. 如何緩存等等
請(qǐng)簡述一下先,謝謝
偶列的可能沒有重點(diǎn),請(qǐng)指教,偶關(guān)心相似性分析部分
base- 20:11:32
哦,這是剛才打的
真神- 20:12:13
google的pr值是針對(duì)性每個(gè)網(wǎng)頁還是一個(gè)網(wǎng)站?
base- 20:12:24
1. 你說的是算法
2. 應(yīng)該就是相似性分析部分
3和4應(yīng)該屬于緩存和更新部分的吧
crane- 20:12:27
關(guān)心多線程的檢索方式
╃(Chris-- 20:12:28
一個(gè)一個(gè)來,我先回答base的問題,ok?
base- 20:12:37
╃(Chris-- 20:14:03
base的問題:
1.分布式的運(yùn)算方式? 這個(gè)主要就是任務(wù)調(diào)度的算法問題,就是如何分配任務(wù). 比如,一個(gè)
很簡單的分布式,就是一個(gè)線程下載一個(gè)網(wǎng)站,一臺(tái)服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:14:55
2.效率問題? crawler目前來講,google跑完一次需要3個(gè)月,所以每隔一段時(shí)間google會(huì)
dance一次,就是重新整理索引.
base- 20:15:41
1. 這里面,如果某些服務(wù)器出現(xiàn)問題的時(shí)候怎么辦?
2. GOOGLE是如何存放數(shù)據(jù)的,DBMS?
base- 20:15:59
哦,我應(yīng)該了解下crawler先
╃(Chris-- 20:16:25
1. 有備份機(jī)制,如何備份不得而知. 2.自己定義的格式存儲(chǔ),比如txt,非dbms,肯定不是.
~~>.<~~- 20:17:03
為什么不用dbms?
base- 20:17:05
是DBMS是不行的,文本方式?大約可以知道是怎么存放的了
╃(Chris-- 20:17:40
3.切詞, 這個(gè)是中國搜索引擎的特色. 一般來講,切詞輸入nlp的領(lǐng)域,引入了nlp的話,會(huì)提
高檢索效率,但是nlp是一個(gè)世紀(jì)難題,baidu解決得效果我看大家也能看得到.
╃(Chris-- 20:17:47
google沒有切詞這個(gè)概念
╃(Chris-- 20:18:04
4,5 屬于檢索引擎得東西,我們下面在談.
╃(Chris-- 20:18:17
next,真神得問題?
真神- 20:18:35
google的pr值是針對(duì)每個(gè)網(wǎng)頁還是一個(gè)網(wǎng)站?
base- 20:18:36
切詞是剛才聽到的,呵呵
╃(Chris-- 20:18:50
pr值是對(duì)每個(gè)網(wǎng)頁.
base- 20:19:04
在語義分析的時(shí)候會(huì)有
╃(Chris-- 20:19:05
page rank,顧名思義,是page
╃(Chris-- 20:19:35
對(duì),繞開語義是必須得,google完全繞開了語義.
冰云- 20:19:36
就是說,我和pr高的page做鏈接我的pr也會(huì)提高
╃(Chris-- 20:20:08
冰云說得對(duì),這個(gè)非常明顯
╃(Chris-- 20:20:30
但是也要和對(duì)方給出來得連接數(shù)量有關(guān)
陸地孤帆- 20:21:06
我想問一下跨語言跨字符集的搜索怎么實(shí)現(xiàn)的?
比如我們輸入中文,卻能查到行相似關(guān)鍵字的繁體中文,甚至日問韓問資料?
base- 20:21:15
對(duì),繞開語義是必須得,google完全繞開了語義.
但是這樣一來,只是關(guān)鍵字分析的話,那么相似性分析就會(huì)有很大偏差了
╃(Chris-- 20:22:05
但是效果來看,google并不差,實(shí)際上全文檢索引擎+page rank可以做得很好. 語義并不是
想象中那么容易處理. 往往1%得誤差,會(huì)造成10%的錯(cuò)誤放大.
base- 20:22:40
當(dāng)然,語義分析到現(xiàn)在也解決的不好,很難
╃(Chris-- 20:23:21
跨語言,跨字符集. 這個(gè)有一個(gè)翻譯的對(duì)應(yīng)詞典. 會(huì)在索引階段就處理這個(gè)問題. 比如簡體
和繁體的對(duì)應(yīng). 但是google沒有做簡體對(duì)英文的對(duì)應(yīng),因?yàn)檫@是屬于機(jī)器翻譯的問題,而不
是簡單的對(duì)應(yīng)問題.
冰云- 20:23:55
不是通過unicode么?
base- 20:24:13
page rank+全文檢索,這個(gè)問題需要討論一下,有點(diǎn)不清楚
╃(Chris-- 20:24:27
對(duì),簡體,繁體,可以通過unicode
╃(Chris-- 20:25:00
但是which unicode對(duì)應(yīng)which unicode 還是應(yīng)該有個(gè)對(duì)應(yīng).
農(nóng)民 - Javen- 20:25:41
還有沒有回答的:
crane- 20:12:27
關(guān)心多線程的檢索方式
╃(Chris-- 20:25:48
google的本質(zhì)是全文索引+page rank. 沒有語義,沒有分詞. 但是效果很不錯(cuò).
╃(Chris-- 20:26:10
crane,能把問題說清楚些么? 多線程的檢索方式?
╃(Chris-- 20:26:34
你是問多用戶并發(fā)檢索的情況如何處理?
crane- 20:26:49
就是多線程 如何 處理不重復(fù)
crane- 20:27:05
如何保證 不重復(fù)檢索網(wǎng)頁
crane- 20:27:36
我曾經(jīng)做過爬網(wǎng)站的程序,這個(gè)是我遇到的最復(fù)雜的問題
╃(Chris-- 20:27:59
應(yīng)該是crawler如何不重復(fù)下載網(wǎng)頁吧?最簡單的方法,就是我前面提到的:
比如,一個(gè)很簡單的分布式,就是一個(gè)線程下載一個(gè)網(wǎng)站,一臺(tái)服務(wù)器處理一個(gè)ip段.
╃(Chris-- 20:28:42
具體,如果是在一個(gè)網(wǎng)站也采用多線程處理,那么實(shí)現(xiàn)方式上來講,會(huì)有一個(gè)隊(duì)列,來存儲(chǔ)已
經(jīng)處理過的頁面. 然后新處理的頁面要比較一下隊(duì)列里的頁面.
農(nóng)民 - Javen- 20:28:52
但 matrix 會(huì)同時(shí)有 上千個(gè) google 線程來 dance
╃(Chris-- 20:29:07
對(duì),上面講到了解決方法.
╃(Chris-- 20:29:14
會(huì)有一個(gè)隊(duì)列.
crane- 20:29:25
一個(gè)線程下載一個(gè)網(wǎng)站,我倒,因?yàn)槲疫@個(gè)程序是就一個(gè)機(jī)器,我的PC
crane- 20:29:36
有沒有其他的辦法
crane- 20:29:59
算法推薦也好
base- 20:30:03
就是一個(gè)網(wǎng)段一個(gè)網(wǎng)段的排吧
base- 20:30:10
不會(huì)重復(fù)網(wǎng)站了
╃(Chris-- 20:30:16
如果是n個(gè)線程處理一個(gè)網(wǎng)站,那么就是我上面提到的方法啊.
╃(Chris-- 20:30:27
會(huì)有一個(gè)隊(duì)列,來存儲(chǔ)已經(jīng)處理過的頁面. 然后新處理的頁面要比較一下隊(duì)列里的頁面.
╃(Chris-- 20:30:36
所有線程共享這個(gè)隊(duì)列.
╃(Chris-- 20:30:43
這是最簡單的方法.
crane- 20:31:03
哦,明白了,謝謝
╃(Chris-- 20:31:05
在n個(gè)線程處理一個(gè)網(wǎng)站,當(dāng)然也可以有一些更聰明的調(diào)度方法,
╃(Chris-- 20:31:24
具體以后再聊聊.
╃(Chris-- 20:31:29
還有其他問題么?
crane- 20:31:33
更聰明 的是什么,剛才你說的一個(gè)隊(duì)列和我的想法是一樣的價(jià)值不大
冰云- 20:31:42
pr這東西對(duì)個(gè)人網(wǎng)站到底有沒有意義呢?
base- 20:32:03
以前偶查東西的時(shí)候是IP段來,一個(gè)IP一個(gè)IP的來過
crane- 20:32:08
更聰明算法 的我以后找你可以么
╃(Chris-- 20:32:19
價(jià)值不大?但是你必須實(shí)現(xiàn)啊. 其他算法以后我們可以探討一下.
╃(Chris-- 20:32:38
pr值我覺得還是挺重要,起碼再google排名上氣的是關(guān)鍵性的作用.
冰云- 20:32:56
左邊的排名是排的PR?
base- 20:32:58
我還是不明白,page rank + 全文檢索,如何處理的相似性問題,就是重要性問題,舉個(gè)
例子如何?
╃(Chris-- 20:33:07
google帶來的訪問量,目前來講是在60%以上.
農(nóng)民 - Javen- 20:33:56
我們?cè)谕粋€(gè)數(shù)據(jù)庫里檢索數(shù)據(jù)都要考慮速度問題,google 是怎么樣保證他的檢索速度的?
同一個(gè)關(guān)鍵詞的搜索,他需要從 N 個(gè)服務(wù)器上去拿數(shù)據(jù),而且上面說到的,可能是打開文
本文件來獲得數(shù)據(jù)。
方片- 20:34:14
為什么在GOOGLE中搜索,當(dāng)你翻了很多頁時(shí)會(huì)經(jīng)常出現(xiàn)重復(fù)的頁面鏈接?
╃(Chris-- 20:34:25
base,可以看看page rank算法.
base- 20:35:03
哦,謝謝,偶去望一下
charbee- 20:35:18
weblucene怎么用呀?
郁也風(fēng)- 20:36:00
base- 20:36:12
you can use English,haha....
╃(Chris-- 20:36:12
javen,這個(gè)就是分布式全文索引的效率問題,效率上來講,這個(gè)會(huì)很迅速,特別是海量數(shù)據(jù)的
處理上,會(huì)比傳統(tǒng)的數(shù)據(jù)庫快n倍.對(duì)google來講,檢索一次,也就是讀幾個(gè)文件,本地傳輸2次
數(shù)據(jù).速度完全可以保證
郁也風(fēng)- 20:36:33
English is my weakest link
╃(Chris-- 20:36:44
charbee,weblucene我沒有用過,希望下次我們可以把車東請(qǐng)過來給大家講講這個(gè)東西,呵呵.
javen可以聯(lián)系一下
base- 20:37:01
try Wan neng Wubi :)
crane- 20:37:16
嘩~~~~ 鼓掌~~
郁也風(fēng)- 20:37:23
welcome:)
charbee- 20:37:29
好,
阿古- 20:37:36
鼓掌!
拓拔濤- 20:37:36
冰云- 20:37:43
車東現(xiàn)在在美國培訓(xùn)
KIKI- 20:37:45
Server- 20:37:46
em14
base- 20:37:52
農(nóng)民 - Javen- 20:38:01
檢索一次,也就是讀幾個(gè)文件,本地傳輸2次數(shù)據(jù).
這個(gè)可以細(xì)化一下???
Server- 20:38:03
em13
charbee- 20:38:14
lucene呢,講講原碼核心部分也好。
╃(Chris-- 20:38:17
javen,這個(gè)和google的具體索引實(shí)現(xiàn)有關(guān).
農(nóng)民 - Javen- 20:38:27
警告: base Server
不要發(fā)這種東西。 否則立馬清除!
base- 20:38:36
真神- 20:38:40
這個(gè)是否是index engine部分的內(nèi)容了?
╃(Chris-- 20:38:46
lucene源碼核心我也想講講,但是時(shí)間不是很允許.
╃(Chris-- 20:38:56
對(duì),下面我們講講index engine
charbee- 20:39:04
呵呵,好。
crane- 20:39:06
lucene源碼核心 放到最后講如何
charbee- 20:39:11
好。
crane- 20:39:17
好
╃(Chris-- 20:39:30
現(xiàn)在已經(jīng)快一個(gè)小時(shí)了,我得手要斷了,哈哈
charbee- 20:39:44
page rank 還沒有講完,我的一個(gè)普通網(wǎng)頁的網(wǎng)站,怎么提高page rank
農(nóng)民 - Javen- 20:39:51
要不休息一會(huì)兒吧。 大家自由聊聊。
crane- 20:39:52
挑戰(zhàn)體能極限,我們都支持你
crane- 20:40:05
好哈,休息
郁也風(fēng)- 20:40:07
╃(Chris-- 20:40:14
charbee:
1. 找盡量多的網(wǎng)頁為你做鏈接指向你.
KIKI- 20:40:17
吃塊瓜,
農(nóng)民 - Javen- 20:40:22
charbee : 這個(gè)倒是個(gè)實(shí)在的問題啊。
我的 blog 今天看到了 3 了 。 哈哈
charbee- 20:40:42
呵呵。
冰云- 20:40:45
我之前是5,現(xiàn)在下降到4,估計(jì)和我有情鏈接增多有關(guān)
郁也風(fēng)- 20:40:45
my pr value is zero
crane- 20:41:05
怎么看5 3呀
冰云- 20:41:10
google bar
charbee- 20:41:10
我的也是0
crane- 20:41:14
pr指數(shù)在哪里看?
╃(Chris-- 20:41:20
增多是不會(huì)減少pr的. pr只和指向你的鏈接有關(guān).
郁也風(fēng)- 20:41:20
my link‘s type is ?abc=***
╃(Chris-- 20:41:31
下載一個(gè)google的bar就可以看到
╃(Chris-- 20:42:52
下面我們繼續(xù)index engine
crane- 20:43:10
好,謝謝
charbee- 20:43:25
農(nóng)民我的blog玩不了了:
http://www.matrix.org.cn/blog/char/
charbee- 20:43:46
繼續(xù) index engine
好像lucene就是用 index engine
╃(Chris-- 20:44:09
東西抓下來之后,除了存儲(chǔ)起來,就是要進(jìn)行索引了,這就是Index engine要做的事情。
這里我們的索引都是指完全的全文索引,而不是只對(duì)字的索引,或者只對(duì)詞的索引。有些
國內(nèi)的檢索引擎是對(duì)字的索引或者對(duì)詞的索引,或者兩者的結(jié)合。
KIKI- 20:44:11
好像也有search engine吧?
╃(Chris-- 20:44:48
其實(shí),我們平時(shí)用的lucene就是一個(gè)索引引擎,但是不支持分布式。而且,索引壓縮算法
還有其他方面還存在一些問題不適合大型搜索引擎使用,但是對(duì)于一般通常的應(yīng)用來講應(yīng)
該是沒有什么問題。
╃(Chris-- 20:45:39
關(guān)于index engine,有幾個(gè)問題比較關(guān)鍵:
╃(Chris-- 20:46:30
1.一般來講,因?yàn)閿?shù)據(jù)量是很大,所以索引的容量也會(huì)很大,一般來講,數(shù)據(jù)量和索引量
的比例會(huì)是1:1。所以,索引的存儲(chǔ)也會(huì)是分布式的。比如google,用來存儲(chǔ)索引的服務(wù)
器大概有1000多臺(tái)。google用的是什么算法是沒有公布,起碼我是沒有找到。最簡單的索
引就是倒排索引,lucene就是用的這個(gè).
╃(Chris-- 20:48:51
2.Index engine 必須支持增量索引,而且增量索引速度應(yīng)該很快。這個(gè)問題,通常的解
決方法,是為新增的數(shù)據(jù)新建一個(gè)新的索引塊,然后在一定時(shí)間,將這個(gè)新的索引塊并入
舊的索引塊。比如lucene里就是這么做的。
╃(Chris-- 20:50:55
3.索引有一個(gè)壓縮的問題,因?yàn)橥ǔ?shù)據(jù)量和索引量的比例會(huì)是1:1,如果壓縮算法做的
比較好的話,應(yīng)該可以得到更好的一個(gè)比例。lucene這方面做的比較一般.
╃(Chris-- 20:51:29
4.還有就是多語言的問題,索引必須支持多語言.現(xiàn)在unicode可以很好的解決這個(gè)問題
╃(Chris-- 20:52:55
5.索引的結(jié)構(gòu)還必須為檢索,相似性分析,等等提供良好的計(jì)算接口.比如google和baidu的
類似網(wǎng)頁,為了很快找到類似網(wǎng)頁,這些數(shù)據(jù)也必須放到索引里面去.
╃(Chris-- 20:53:57
6.當(dāng)然,支持doc,excel,ps 等多種文件格式,這個(gè)是基本的東西了
Join- 20:54:19
怎么把數(shù)據(jù)放入索引哦?
Join- 20:54:27
添加索引??
╃(Chris-- 20:54:29
就是通過索引引擎.
Join- 20:54:44
沒聽過
╃(Chris-- 20:54:56
數(shù)據(jù)下載下來,出發(fā)索引引擎,索引引擎分析數(shù)據(jù),添加到索引庫.
╃(Chris-- 20:55:48
index engine 介紹完了.大家自己提問
╃(Chris-- 20:55:52
自由提問
方片- 20:57:51
時(shí)間太短,講的東西太深,聽不大懂,Chris能不能花點(diǎn)時(shí)間將今天的講座整理成一篇文檔,
以便慢慢學(xué)習(xí)啊
農(nóng)民 - Javen- 20:58:11
坦率地說,我沒有太明白“全文”索引的意思。 對(duì)象不是字、詞,是全文?
一般意義上的索引對(duì)象都是關(guān)鍵字。
╃(Chris-- 20:58:15
呵呵.好啊.完了會(huì)整理放到網(wǎng)上.
阿古- 20:58:23
就是阿
感覺很復(fù)雜
很多算法沒有接觸到
農(nóng)民 - Javen- 20:58:34
我會(huì)整理好記錄的。 我已經(jīng)在整理了。 會(huì)完后馬上可以放到網(wǎng)絡(luò)上。
charbee- 20:58:54
最好有實(shí)際點(diǎn)的東西比較好,有這樣有什么好,沒有這樣有什么好。
crane- 20:58:55
是哈,這個(gè)東西太深了,而且涉及的方面可真多
KIKI- 20:59:01
主要是沒學(xué)過九陽神功,要不小KS
╃(Chris-- 20:59:07
對(duì),全文檢索不是對(duì)關(guān)鍵字,是對(duì)全文.
比如"我是中國人",檢索"是中",也可以檢索到就是全文檢索
郁也風(fēng)- 20:59:25
base- 20:59:34
這里應(yīng)該是page rank的內(nèi)容了吧?
阿古- 20:59:45
你可以寫拼音嘛1
base- 20:59:49
you can download the 萬能五筆
wuyu- 20:59:52
能不能再介紹一下索引中的分詞處理,比如中文同義詞處理?
郁也風(fēng)- 21:00:24
I‘m downloading MS ime,76MB
wuyu- 21:00:25
如果搜“毛主席”,帶著“毛澤東”、“毛潤芝”之類的信息也能檢索出來?
crane- 21:00:28
Chris 隨便找個(gè)你認(rèn)為最有價(jià)值 的方面,詳細(xì)講講吧
╃(Chris-- 21:00:41
google對(duì)索引,不會(huì)做分詞處理的.所以不會(huì)對(duì)同義詞進(jìn)行處理. baidu會(huì)做處理.
base- 21:00:52
萬能五筆 is little, just less than 5M
墮入凡間的雨- 21:01:13
這樣的處理豈不是很復(fù)雜
crane- 21:01:24
google現(xiàn)在能處理拼音了
wuyu- 21:01:31
是啊,baidu、trs、慧聰之類的國內(nèi)廠商所吹的,也就是基于漢語言的切分詞技術(shù)
wuyu- 21:01:58
中文切分詞過程大致的原理?
crane- 21:02:00
trs 不是國內(nèi)的吧
wuyu- 21:02:11
國內(nèi)的,易寶嘛
╃(Chris-- 21:02:13
trs是港資的,但是主力是國內(nèi)的
╃(Chris-- 21:02:24
北京信息工程學(xué)院的
charbee- 21:02:34
Chris,你在trs做嗎?
╃(Chris-- 21:02:40
慧聰嗎,呵呵..我呆過一段時(shí)間.
wuyu- 21:02:49
呵,主要是trs比較便宜,好象trs server才8萬。
╃(Chris-- 21:02:57
不在trs啊? 這個(gè)不是我的專業(yè),只是我的愛好.
crane- 21:04:36
基于漢語言的切分詞技術(shù), 維護(hù)同義詞字典?
wuyu- 21:04:47
慧聰吹的有一個(gè)東西是內(nèi)嵌在關(guān)系數(shù)據(jù)庫內(nèi)的全文,trs、百毒、lucene都是另起專門的全
文庫,這兩種方式有什么優(yōu)缺點(diǎn)?
農(nóng)民 - Javen- 21:05:20
因?yàn)?google 根本不去管什么分詞、語義,而 baidu 、慧聰什么的在玩一點(diǎn),所以說他們
技術(shù)比 google 高,說什么第三代、第四代搜索技術(shù)?
bill-過兒- 21:06:05
感謝!我來晚了!
base- 21:06:22
唉,語義分析,
KIKI- 21:06:27
暈,現(xiàn)在才來?
農(nóng)民 - Javen- 21:06:36
感謝大家支持!
1、自由發(fā)言:大家悠著點(diǎn),不要太著急啊。剛開始請(qǐng)盡量由主講發(fā)言吧;
2、一點(diǎn)限制:主講人與管理員的字體顏色為紅色,請(qǐng)大家使用黑色或者藍(lán)色,并且請(qǐng)大家
字體不要超過5號(hào);
crane- 21:06:46
自然語言語義分析可有的玩了
wuyu- 21:06:49
我是覺得中文切分詞很關(guān)鍵啊,如果用lucene的自動(dòng)切分詞,能夠滿足“查全”的要求,
但是實(shí)際應(yīng)用中,更加需要“查準(zhǔn)”啊,你出一萬條垃圾信息還不如出一條用得著的信息好
bill-過兒- 21:07:25
是啊,聚了一下會(huì)!
╃(Chris-- 21:07:29
information retrieval-的技術(shù)會(huì)越來越多的應(yīng)用到搜索引擎里面.比如,排重,
相似性分析,用戶愛好分析,問題回答性質(zhì).等等. 但是,這都要以一定的準(zhǔn)確性為基礎(chǔ),如果
技術(shù)不成熟,就只能是放在實(shí)驗(yàn)室的產(chǎn)品.
charbee- 21:07:29
有沒有實(shí)用點(diǎn)的技巧?
crane- 21:07:33
切分詞技術(shù) 方便解釋一下么
郁也風(fēng)- 21:08:00
切分詞? I‘m late, what is 切分詞?wuyu?
bill-過兒- 21:08:22
繼續(xù)
charbee- 21:08:28
車東有篇文章講切分詞。
wuyu- 21:08:32
郁也風(fēng),拆分為“郁也”“也風(fēng)”,lucene就是用這種自動(dòng)切分詞手段的,兩字兩字一切分。
crane- 21:08:45
哦,明白了,謝謝
郁也風(fēng)- 21:08:57
i see:)
wuyu- 21:09:31
英文好切分,見空白符就切成word了,中文就沒邊界。"this is",明顯的兩個(gè)詞,但是
“郁也風(fēng)”,你讓計(jì)算機(jī)去判斷判斷用了幾個(gè)詞?
crane- 21:09:40
我想,應(yīng)該切分有意義的詞吧
╃(Chris-- 21:09:46
切分詞,對(duì)英文是不存在這個(gè)分詞的問題,因?yàn)榭崭窬褪怯⑽膯卧~的分隔符..
但是中文就有,比如 "我馬上從馬上下來",計(jì)算機(jī)存在識(shí)別困難. 現(xiàn)在,通過一定的技術(shù),基
于語料庫,可以達(dá)到比較好的效果.
crane- 21:10:07
哈哈,這個(gè)例子好玩
墮入凡間的雨- 21:10:29
語料庫是什么?
crane- 21:10:33
語料庫 是什么,不只是詞典吧,還有什么
base- 21:10:37
又到了語義分析上了,唉,誰能三言兩語說明白,老朽會(huì)佩服死去活來的
bill-過兒- 21:11:02
對(duì)不起噢!
charbee- 21:11:09
http://www.chedong.com/tech/lucene.html#segment
Word Segment-
bill-過兒- 21:11:13
可以了
╃(Chris-- 21:11:16
語料庫是一些,已經(jīng)處理好的標(biāo)注文章, 比如把人民日?qǐng)?bào)2年的文章分詞標(biāo)注好. 然后基于
這個(gè)語料庫來處理分詞.
bill-過兒- 21:11:25
調(diào)整好了
crane- 21:11:29
這么智能呀
╃(Chris-- 21:11:41
語料庫是手動(dòng)做的.
base- 21:11:49
這個(gè)查詢數(shù)據(jù)量,大了去了,有什么相關(guān)算法?
crane- 21:11:59
想當(dāng)于 先給機(jī)器人學(xué)知識(shí),然后他去做 舉一反三的工作?
╃(Chris-- 21:11:59
這個(gè)建索引,速度還不錯(cuò).
╃(Chris-- 21:12:06
crane說對(duì)了
crane- 21:12:41
哇,太夸張了,現(xiàn)在的技術(shù)可真厲害,估計(jì)性能是個(gè)不小的問題
base- 21:12:45
呵呵
墮入凡間的雨- 21:13:18
也就是將常用詞語做庫!然后在語法切分時(shí)根據(jù)庫做比較?
真神- 21:13:32
這個(gè)深入下去估計(jì)是AI方面的內(nèi)容了
base- 21:13:42
不用深入,已經(jīng)是了
╃(Chris-- 21:13:46
不僅僅這么簡單,是對(duì)一些文章進(jìn)行分詞并進(jìn)行詞性標(biāo)注.
╃(Chris-- 21:14:10
先手動(dòng)做,然后讓機(jī)器在這個(gè)基礎(chǔ)上對(duì)其他文章自動(dòng)分詞
墮入凡間的雨- 21:14:41
也就是叫機(jī)器去讀文章!
╃(Chris-- 21:14:46
對(duì).
╃(Chris-- 21:14:58
這些都是ir,nlp范疇的東西,呵呵
真神- 21:15:29
說到這里我想起電影《AI》里小機(jī)器人去游樂場問問題那一幕
╃(Chris-- 21:15:32
所以說,搜索引擎是一項(xiàng)非常豐富的技術(shù).會(huì)牽涉很多領(lǐng)域
╃(Chris-- 21:15:45
下面我們繼續(xù) search engine
墮入凡間的雨- 21:16:05
如果庫的文件不是很大,倒是為未來的電腦語音系統(tǒng)提供了很好的內(nèi)容
農(nóng)民 - Javen- 21:16:48
第三個(gè)部分內(nèi)容:
base- 21:16:52
如果語義分析解決了,不是領(lǐng)域問題,是對(duì)人類的一大貢獻(xiàn)哦
╃(Chris-- 21:17:13
索引建好之后,就是為了search 服務(wù)了.
通常流程是這樣的,用戶發(fā)出請(qǐng)求 <-> search engine<-> index server
╃(Chris-- 21:18:06
對(duì)于檢索引擎,search engine,有以下關(guān)鍵問題:
1. 檢索結(jié)果的排序問題,這個(gè)其實(shí)前面的page rank做了很多鋪墊的
╃(Chris-- 21:18:58
一些新的嘗試,比如對(duì)用戶偏好的分析之類的,都可以運(yùn)用在這里,對(duì)不同偏好的用戶采用不
同的排序策略
╃(Chris-- 21:19:37
2.檢索結(jié)果的排重問題,就是排除重復(fù)的結(jié)果.這個(gè)算法很重要,因?yàn)椴粌H是準(zhǔn)確性的問題,
還有就是速度問題.
╃(Chris-- 21:20:06
3.檢索結(jié)果的相似性分析問題,這個(gè)和上面的為那提比較類似. 主要用在 類似網(wǎng)頁 里面
╃(Chris-- 21:21:04
4.檢索的速度問題.這個(gè)主要是靠前面的索引結(jié)構(gòu)決定.當(dāng)然,很多技術(shù)可以用來提升速度,
比如分布式cache
╃(Chris-- 21:21:23
大概就這么幾個(gè)問題..
╃(Chris-- 21:21:26
大家自由發(fā)言.
wuyu- 21:21:52
能不能講講二次檢索?
crane- 21:22:06
感覺 問題 好象應(yīng)該在入倉的時(shí)候就 該解決
crane- 21:22:15
感覺 排重問題 好象應(yīng)該在入倉的時(shí)候就 該解決
╃(Chris-- 21:22:27
二次檢索很簡單,其實(shí)就是和第一次檢索的東西作一次and
bill-過兒- 21:22:38
檢索結(jié)果的排重問題,就是排除重復(fù)的結(jié)果.這個(gè)算法很重要,
這個(gè)要自己 開發(fā) 嗎?
╃(Chris-- 21:22:48
對(duì),排重的問題,很多會(huì)在入庫的時(shí)候解決.
wuyu- 21:22:50
但是二次檢索對(duì)性能的影響?一般搜索引擎是怎么處理的?
╃(Chris-- 21:23:29
性能影響不大...對(duì)于優(yōu)秀的搜索引擎來講,一般的布爾表達(dá)式都不會(huì)是大問題
╃(Chris-- 21:23:54
二次檢索也只是為布爾表達(dá)式加了一個(gè)and
╃(Chris-- 21:24:09
排重當(dāng)然要自己開發(fā)拉?
wuyu- 21:24:44
"上一次的" AND 關(guān)鍵詞),然后進(jìn)行“全新”的檢索?
╃(Chris-- 21:25:16
這只是一種實(shí)現(xiàn)方式, 就是這種方式,解決起來也是完全可行的.當(dāng)然,有更好的方式,比如放到cache里,然后檢索cache等.
wuyu- 21:25:21
我暈死,呵呵,我還一直以為采用了某些手段,比如做了cache
╃(Chris-- 21:25:57
呵呵.
郁也風(fēng)- 21:26:45
"上一次的" AND 關(guān)鍵詞-it‘s like my method:)
╃(Chris-- 21:26:59
呵呵
wuyu- 21:27:07
我是關(guān)鍵數(shù)據(jù)庫的檢索時(shí)被人逮著問二次檢索的,那家伙硬是把我用的trsserver提供全文和我業(yè)務(wù)后臺(tái)管理時(shí)從關(guān)系數(shù)據(jù)庫做檢索混起來,非讓我明白的告訴他支持不支持二次檢索,是怎么支持的,暈啊
農(nóng)民 - Javen- 21:27:11
大家還有問題嗎? 要不今天暫時(shí)到這里?
SS- 21:27:24
問個(gè)問題
SS- 21:27:35
比如剛才因?yàn)楹芏鄾]有看到
╃(Chris-- 21:27:42
wuyu,你這個(gè)問題必須放到cache里.
農(nóng)民 - Javen- 21:27:43
chris 應(yīng)該是比較累了。 呵呵 。 狂敲鍵盤一個(gè)半小時(shí)了。
KIKI- 21:27:44
急什么?? 都這么有熱情勁兒
╃(Chris-- 21:27:52
哈哈
JAVA神化- 21:27:58
SS- 21:27:59
比如我檢索一個(gè)條件是 xx=123 and test=234
bill-過兒- 21:28:04
唉!我還沒聽夠那!
SS- 21:28:07
一般做法是不是分2次檢索
JAVA神化- 21:28:09
charbee- 21:28:11
呵呵。我們要考慮怎么把技術(shù)變成實(shí)用。
crane- 21:28:19
一般的大型企業(yè)應(yīng)用系統(tǒng)中,哪些地方可以用到Lucene呢
SS- 21:28:29
先檢索出xx=123然后在結(jié)果集中test=234
╃(Chris-- 21:28:39
ss,這個(gè)要看索引結(jié)構(gòu),如果索引結(jié)構(gòu)好,不用兩次檢索,可以一次掃描就解決
wuyu- 21:28:40
我是含糊過的,反正我關(guān)系數(shù)據(jù)庫的檢索是根據(jù)我定義的Filter做了cache,而他們大量用
檢索的時(shí)候是跑我trs server來檢索的,懶得理他,呵呵
crane- 21:29:35
學(xué)了這么多,手癢癢,想用用,在哪里能用這些技術(shù)
charbee- 21:29:55
好呀。最好能有些效果可以看看
墮入凡間的雨- 21:30:04
資源系統(tǒng)里面較為常用
╃(Chris-- 21:30:28
開發(fā)搜索引擎的時(shí)候,或者處理海量數(shù)據(jù)的時(shí)候.
墮入凡間的雨- 21:30:38
而且資源系統(tǒng)中的數(shù)據(jù)量一般也是比較大的
╃(Chris-- 21:31:09
搜索引擎也會(huì)是將來的一個(gè)方向,專業(yè)化,個(gè)性化的搜索引擎
crane- 21:31:14
感覺 搜索引擎 是非常有錢途的東東
KIKI- 21:31:31
呵呵,沒錢途誰學(xué)呀
wuyu- 21:31:49
我這邊更多的應(yīng)用是從關(guān)系數(shù)據(jù)庫的數(shù)據(jù)導(dǎo)入全文庫,然后再提供出來做檢索。
不過有一個(gè)問題很煩,就是關(guān)系數(shù)據(jù)庫(或是google的某個(gè)網(wǎng)頁)做了變更、刪除以后全
文庫的同步問題?
1、是更新后立即刷新全文完成同步,還是通過定時(shí)任務(wù)進(jìn)行同步?
2、如果是定時(shí)任務(wù),是增量更新方式來完成同步,還是完全復(fù)制的同步?
bill-過兒- 21:31:49
╃(Chris-- 21:31:51
對(duì),前段時(shí)間萬網(wǎng)老總就做了一次秀,關(guān)于搜索引擎
crane- 21:32:01
以前是信息就是金錢,現(xiàn)在是信息太多,摘得出來才是金錢
阿古- 21:32:21
嗯
墮入凡間的雨- 21:32:27
還有個(gè)問題,如果使用存儲(chǔ)過程,在查詢速度上會(huì)有很大的提升,但是如果考慮跨平臺(tái)的
使用,使用SQL語法有什么好的建議
SS- 21:32:50
要看是什么系統(tǒng)了
wuyu- 21:33:12
對(duì)于google來說,原始網(wǎng)站和全文庫的不同步是可以允許的,但是對(duì)于小型應(yīng)用來說,原
始關(guān)系數(shù)據(jù)庫和全文庫的不同步或是同步不及時(shí),就是很難容忍的了,嗚嗚
SS- 21:33:16
我覺得這種核心思想應(yīng)該是夠用則可
╃(Chris-- 21:33:28
小型應(yīng)用,我覺得立即同步刷新就行了.
SS- 21:33:28
就是說如果現(xiàn)有的速度夠用,就不要用存儲(chǔ)過程
墮入凡間的雨- 21:33:42
資源!應(yīng)該是小學(xué)到高中的全部資源或者更多
SS- 21:33:52
如果不夠,在需要的地方加,此時(shí)不用顧慮移植問題
wuyu- 21:34:26
基于事件觸發(fā)的機(jī)制,在關(guān)系數(shù)據(jù)庫完成更新操作后立即通知全文庫做內(nèi)容更新同步操作?
╃(Chris-- 21:34:39
對(duì),小型應(yīng)用應(yīng)該這樣
墮入凡間的雨- 21:35:24
這一步的更新是通過觸發(fā)器來實(shí)現(xiàn)???
╃(Chris-- 21:35:44
是觸發(fā)機(jī)制,不是觸發(fā)器
╃(Chris-- 21:36:07
trigger比較局限
crane- 21:37:01
關(guān)于搜索引擎的未來,關(guān)于全球海量信息,會(huì)不會(huì)有這樣的問題,就是計(jì)算機(jī)的性能發(fā)展比信息量增加的快,因?yàn)闅v史資料是有限的 ,新的文字資料要人工寫的
對(duì)于文字的檢索也許將來的性能不是問題????有沒有這種可能
wuyu- 21:37:05
事件觸發(fā),我不一定是觸發(fā)器的,可是是對(duì)一個(gè)數(shù)據(jù)實(shí)體做一個(gè)動(dòng)作以后觸發(fā),或是完成一系列的動(dòng)作,也就是完成一個(gè)業(yè)務(wù)處理以后做觸發(fā)
SS- 21:37:14
不可能的
SS- 21:37:25
信息的發(fā)展是爆炸性的
SS- 21:37:49
這是指數(shù)級(jí)別的增長
crane- 21:37:51
爆炸 的信息文字誰來寫,要人來寫的
SS- 21:38:07
而計(jì)算機(jī)性能是倍數(shù)級(jí)的
SS- 21:38:13
很多信息不需要人工輸入的
墮入凡間的雨- 21:38:14
解決問題的方式也是!
bill-過兒- 21:38:23
可以發(fā)明說話轉(zhuǎn)換成字阿
crane- 21:38:30
什么信息不需要人工輸入呀
╃(Chris-- 21:38:34
呵呵,這個(gè)也沒有辦法,你必須作出一個(gè)犧牲,it is a tradeoff.
SS- 21:38:37
很多,比如統(tǒng)計(jì)數(shù)據(jù)
crane- 21:38:54
bill-過兒- 21:38:23
可以發(fā)明說話轉(zhuǎn)換成字阿
哦,對(duì) ,這樣信息量就大了去了
SS- 21:39:16
還有比如探測器取得的信息
crane- 21:39:24
不過,同樣面臨著一個(gè)問題,一年內(nèi)一個(gè)人說話是有限的
SS- 21:39:30
不一定是說話
╃(Chris-- 21:39:31
今天的專題講座到這結(jié)束吧. 我們下次再見.多謝各位的支持.希望matrix能有更多的高手加入進(jìn)來.歡迎你們.
crane- 21:39:33
那不是文字信息了,圖形的
wuyu- 21:39:34
"內(nèi)容"-;輸出的,或者是他的“鏈接”是由js、flash等手段來控制的,這種時(shí)候,spider常見的處理機(jī)制?有沒有簡單入門的算法?
SS- 21:39:46
圖形 文字等等
crane- 21:39:52
暈,談?wù)勊阉饕娴奈磥戆?
╃(Chris-- 21:40:14
這個(gè)是html的分析問題,spider肯定有一個(gè)完整的html分析器.分析所有js,flash等,這個(gè)屬于program層面的東西了.呵呵.
crane- 21:40:18
技術(shù),基礎(chǔ),歷史,都講了,最后要談未來 然后收功的
墮入凡間的雨- 21:40:21
圖形可以建立索引目錄呀!
╃(Chris-- 21:40:28
哈哈,未來無限美好!
╃(Chris-- 21:40:31
收工!
冰云- 21:40:41
SS- 21:40:42
講了2個(gè)小時(shí)了
crane- 21:40:45
謝謝 Chris
SS- 21:40:45
不錯(cuò)
JAVA神化- 21:40:45
拓拔濤- 21:40:46
KIKI- 21:40:55
wuyu- 21:40:57
按sun的說法,網(wǎng)絡(luò)就是計(jì)算機(jī),搜索就是信息。
SS- 21:40:59
pppppppppppppppppp
SS- 21:41:05
大家鼓掌
wuyu- 21:41:07
wuyu- 21:41:10
獻(xiàn)花
╃(Chris-- 21:41:11
太累,要不今晚接著把lucene的源碼講一遍,呵呵,下次吧.
墮入凡間的雨- 21:41:12
JAVA神化- 21:41:13
明天去報(bào)到
聽說還要軍訓(xùn) 5
農(nóng)民 - Javen- 21:41:15
感謝 chris 的學(xué)識(shí)與努力,也感謝大家的支持!
今天晚上到此為止。
本站僅提供存儲(chǔ)服務(wù),所有內(nèi)容均由用戶發(fā)布,如發(fā)現(xiàn)有害或侵權(quán)內(nèi)容,請(qǐng)
點(diǎn)擊舉報(bào)。