《大數(shù)據(jù)時(shí)代》一書(shū)出版于2013年,按照作者維克托·邁爾-舍恩伯格和肯尼思·庫(kù)克耶所說(shuō),這是一場(chǎng)生活、工作與思維的大變革,“大數(shù)據(jù)正在改變我們的生活以及理解世界的方式,成為新發(fā)明和新服務(wù)的源泉,而更多的改變正蓄勢(shì)待發(fā)……”
本書(shū)定義的“大數(shù)據(jù)”就是基于海量數(shù)據(jù)分析從而產(chǎn)生巨大價(jià)值的產(chǎn)品和服務(wù),它以石破天驚之勢(shì)為大數(shù)據(jù)概括出了三個(gè)核心特性,即:關(guān)心全部樣本而不再是抽樣數(shù)據(jù);包容混亂和錯(cuò)誤,不再關(guān)心數(shù)據(jù)的精確性;不再關(guān)心因果關(guān)系代之以相關(guān)關(guān)系。而大數(shù)據(jù)的核心就是預(yù)測(cè),通過(guò)對(duì)海量數(shù)據(jù)進(jìn)行數(shù)學(xué)運(yùn)算,人們擁有了預(yù)知未來(lái)的魔鏡。
雖然檔案業(yè)和一些與大數(shù)據(jù)預(yù)測(cè)緊密相關(guān)的行業(yè)不同,但是滾滾來(lái)襲的大數(shù)據(jù)浪潮也必將使傳統(tǒng)的檔案工作發(fā)生變革。值得檔案業(yè)界研究的問(wèn)題很多,這中間也蘊(yùn)藏著很多的機(jī)會(huì)。
首先,大數(shù)據(jù)理論將有助于回答電子檔案如何收集以及后續(xù)如何更好地管理和利用等重要命題,或?qū)⒒忾L(zhǎng)期以來(lái)困擾著檔案工作的利用需求無(wú)限擴(kuò)大與存儲(chǔ)空間、管理成本有限之間的矛盾。
在大數(shù)據(jù)時(shí)代,政府成為最大規(guī)模的信息采集者,國(guó)家綜合檔案館作為天生的數(shù)據(jù)集散地,其電子檔案收集范圍必將進(jìn)一步擴(kuò)大,移交時(shí)限也將進(jìn)一步縮短。而在“開(kāi)放政府?dāng)?shù)據(jù)”的倡議響徹全球的年代,電子檔案的開(kāi)放時(shí)限也將在既有框架中不斷尋求突破,變得更加靈活。對(duì)大數(shù)據(jù)的分析處理和增值應(yīng)用,將成為未來(lái)檔案開(kāi)發(fā)利用的重要內(nèi)容,檔案館坐擁龐大的數(shù)據(jù)資源應(yīng)該成為巨大社會(huì)價(jià)值的產(chǎn)出地。在這種情況下,對(duì)于檔案管理工作進(jìn)行一場(chǎng)技術(shù)革新也是在所難免的,大數(shù)據(jù)時(shí)代的來(lái)臨相比其他信息技術(shù)則更加契合檔案管理工作的需要。
在檔案管理過(guò)程中,人們一直在探討如何在收集環(huán)節(jié)把好關(guān)口,要避免檔案實(shí)體漲庫(kù),克服檔案信息存儲(chǔ)空間的限制,又要防止有價(jià)值的檔案被淹沒(méi)在價(jià)值低甚至毫無(wú)利用價(jià)值的海量檔案中間;而在利用環(huán)節(jié),人們追求檔案如何在需要時(shí)應(yīng)有盡有、無(wú)所不包,同時(shí)要能被快速、準(zhǔn)確地檢索出來(lái)。檔案工作者長(zhǎng)期以來(lái)就在這個(gè)像悖論一樣的命題中間“帶著鐐銬跳舞”。而大數(shù)據(jù)或?qū)⑤p松化解這個(gè)難題。在數(shù)據(jù)化的環(huán)境中,對(duì)檔案收集選擇性的要求會(huì)大大降低,畢竟保存數(shù)據(jù)的成本比保存檔案實(shí)體低得多,而在大數(shù)據(jù)時(shí)代也很難預(yù)判什么樣的信息有價(jià)值、什么樣的信息沒(méi)有價(jià)值。對(duì)檔案數(shù)據(jù)的利用也將發(fā)生翻天覆地的轉(zhuǎn)變,不但查準(zhǔn)、查全變成了小菜一碟,深入的數(shù)據(jù)處理將賦予檔案數(shù)據(jù)更大價(jià)值。
其次,大數(shù)據(jù)時(shí)代允許不精確或?qū)⒏淖儥n案收集的質(zhì)量標(biāo)準(zhǔn)和整理要求。
書(shū)中觀點(diǎn)認(rèn)為,在大數(shù)據(jù)時(shí)代允許不精確的出現(xiàn)已經(jīng)成為一個(gè)新的亮點(diǎn)而非缺點(diǎn)。人們需要與各種各樣的混亂作斗爭(zhēng),這種混亂也可以指不同的數(shù)據(jù)格式,如要達(dá)到格式一致,就需要在進(jìn)行數(shù)據(jù)處理之前仔細(xì)地清洗數(shù)據(jù),而這在大數(shù)據(jù)背景下很難做到。
在日常的檔案收集工作中,檔案館確實(shí)花了大量的時(shí)間和精力在與“不精確”作斗爭(zhēng)。除了就整理、鑒定的標(biāo)準(zhǔn)與要求與各移交單位進(jìn)行反復(fù)溝通以外,在某些時(shí)候甚至幫移交單位做一些具體而細(xì)微的“手工活”。在未來(lái),對(duì)檔案整理的要求將日益趨于簡(jiǎn)單和便利。“雖然如果我們能夠下足夠多的功夫,這些錯(cuò)誤是可以避免的,但在很多情況下,與致力于避免錯(cuò)誤相比,對(duì)錯(cuò)誤的包容會(huì)給我們帶來(lái)更多好處。”也就是說(shuō),要實(shí)現(xiàn)檔案管理全程效益最大化,在收集環(huán)節(jié)科學(xué)地“包容錯(cuò)誤”將成為大數(shù)據(jù)時(shí)代一種現(xiàn)實(shí)的選擇。
當(dāng)然,即使在大數(shù)據(jù)時(shí)代,接收工作也必須要堅(jiān)持一定的質(zhì)量標(biāo)準(zhǔn)。如果待移交檔案中存在一些不能忽略的基礎(chǔ)性問(wèn)題,進(jìn)館后將影響檔案收集以及后續(xù)工作的科學(xué)推進(jìn)。筆者認(rèn)為,在包容錯(cuò)誤與堅(jiān)持標(biāo)準(zhǔn)之間踩準(zhǔn)節(jié)拍,底線(xiàn)應(yīng)該是不影響進(jìn)館數(shù)據(jù)后續(xù)的關(guān)聯(lián)分析。
再次,在大數(shù)據(jù)時(shí)代,傳統(tǒng)載體檔案將面臨全面的“數(shù)據(jù)化”而不僅僅是“數(shù)字化”。
“數(shù)字化”可能是僵死的信息存儲(chǔ),而“數(shù)據(jù)化”則是可檢索和可以進(jìn)行關(guān)聯(lián)分析的活數(shù)據(jù)。IT業(yè)所指的數(shù)據(jù),誕生不過(guò)60多年。一直到個(gè)人電腦普及以前,許多自然界和人類(lèi)社會(huì)值得記錄的信息并未形成數(shù)據(jù)。兩個(gè)名詞僅一字之差,實(shí)則有了本質(zhì)的差別。
就目前檔案館的狀況而言,紙質(zhì)檔案數(shù)字化的方式主要是將檔案原件掃描成圖形文件存入電腦,因?yàn)檫@些圖形并沒(méi)有被數(shù)據(jù)化,無(wú)法進(jìn)行關(guān)鍵詞查詢(xún)和檢索,也無(wú)法用于進(jìn)一步的數(shù)據(jù)關(guān)聯(lián)分析處理。而數(shù)據(jù)化之后,這些海量的檔案文件可以更方便地被人和計(jì)算機(jī)運(yùn)用。
不僅是紙質(zhì)檔案,各種載體的音視頻檔案未來(lái)同樣也能夠?qū)崿F(xiàn)模擬信息、數(shù)字信息數(shù)據(jù)化的跨越。在大數(shù)據(jù)時(shí)代,世間萬(wàn)物都將被數(shù)據(jù)化并進(jìn)而創(chuàng)造更大價(jià)值的嘗試。
最后,在一個(gè)嶄新時(shí)代微曦初露的當(dāng)口,我國(guó)的檔案業(yè)也必然面對(duì)不進(jìn)則退的歷史抉擇,必須贏得先機(jī),爭(zhēng)取自主創(chuàng)新。
隨著全社會(huì)對(duì)檔案資源需求的日益增長(zhǎng),傳統(tǒng)的檔案管理方式已不能滿(mǎn)足國(guó)家和公民對(duì)各類(lèi)檔案開(kāi)發(fā)利用的需要。因此,檔案業(yè)要積極應(yīng)對(duì)大數(shù)據(jù)時(shí)代帶來(lái)的種種變化,研究數(shù)據(jù)收集、管理和利用的新模式、新方法。大數(shù)據(jù)“做新、做多、做好、做快”的能力釋放出無(wú)限價(jià)值,將會(huì)產(chǎn)生新的贏家和輸家。就像馬云曾說(shuō):“銀行不改變,我就來(lái)改變銀行?!本驮趥鹘y(tǒng)的銀行業(yè)坐擁壟斷壁壘“高枕無(wú)憂(yōu)”之際,竟被不入流的“攪局者”余額寶打了個(gè)措手不及,不得不被動(dòng)地應(yīng)對(duì)和調(diào)整。
本書(shū)的序一中說(shuō):“現(xiàn)代歷史上的歷次技術(shù)革命,中國(guó)均是學(xué)習(xí)者。而在這次云計(jì)算與大數(shù)據(jù)的新變革中,中國(guó)與世界的差距最小,在很多領(lǐng)域甚至還有著創(chuàng)新與領(lǐng)先的可能?!蔽覈?guó)的檔案業(yè)如果能在深刻認(rèn)識(shí)以及純熟運(yùn)用大數(shù)據(jù)的規(guī)律中有所突破,也將有能力問(wèn)鼎檔案工作的世界之巔,面對(duì)我國(guó)龐大的信息消費(fèi)市場(chǎng),抑或像互聯(lián)網(wǎng)領(lǐng)域的QQ和微信一樣,另辟蹊徑走出一條別樣的繁榮之路。
原載于《中國(guó)檔案報(bào)》2014年8月28日 總第2653期 第三版