國學(xué)大數(shù)據(jù)時代來了
訪談嘉賓:趙敏俐:首都師范大學(xué)文學(xué)院教授、中國詩歌研究中心主任
孫茂松:清華大學(xué)計(jì)算機(jī)科學(xué)與技術(shù)系教授、中國中文信息學(xué)會副理事長
張 濤:北京師范大學(xué)易學(xué)文化研究院教授、院長
尹小林:首都師范大學(xué)電子文獻(xiàn)研究所所長
特邀主持人:杜曉勤(北京大學(xué)中文系教授、中國古代詩歌研究中心副主任)
主持人:21世紀(jì)進(jìn)入第二個十年,信息技術(shù)得到突飛猛進(jìn)的發(fā)展。我們正在進(jìn)入一個全方位的“大數(shù)據(jù)時代”,呈現(xiàn)出從“云計(jì)算”到“大數(shù)據(jù)”的發(fā)展趨勢。這個發(fā)展趨勢不是虛空的,而是正在對社會生活和學(xué)術(shù)研究產(chǎn)生著實(shí)實(shí)在在的重大影響。今天在座的都是中國古籍?dāng)?shù)字化事業(yè)的參與者和見證人。我們希望通過這樣一個小型的討論,與廣大讀者一起分享各位關(guān)于古籍整理與國學(xué)研究如何應(yīng)對“大數(shù)據(jù)時代”問題的思考。
一
趙敏俐:“大數(shù)據(jù)時代”已經(jīng)降臨了。它表現(xiàn)在各個領(lǐng)域,不僅僅是生產(chǎn)領(lǐng)域,還包括知識領(lǐng)域。“大數(shù)據(jù)時代”是一場革命,它不僅會促進(jìn)經(jīng)濟(jì)發(fā)展、科技進(jìn)步,在文化領(lǐng)域也會起到巨大的作用。十七屆六中全會《關(guān)于深化文化體制改革、推動社會主義文化大發(fā)展大繁榮若干重大問題的決定》明確提出:“要加強(qiáng)文化典籍整理和出版工作,推進(jìn)文化典籍資源數(shù)字化建設(shè)。”我們應(yīng)站在“大數(shù)據(jù)時代”這樣一個新的高度,來理解和認(rèn)識中央推進(jìn)古籍?dāng)?shù)據(jù)化事業(yè)的戰(zhàn)略意義。
主持人:趙敏俐教授,您是倡導(dǎo)古籍?dāng)?shù)字化的重要學(xué)者,而且已經(jīng)主持研制了一些古籍?dāng)?shù)據(jù)庫。請問您對“大數(shù)據(jù)時代”之“大”是如何理解的?
趙敏俐:我想,“大”應(yīng)該包括兩個方面的內(nèi)容。首先是規(guī)模上的“大”。按尹小林的提法,幾百萬到一千萬字的數(shù)據(jù)庫算是小型數(shù)據(jù)庫;幾千萬到一億字的數(shù)據(jù)庫算是中型數(shù)據(jù)庫;從一億字到十億字算是大型數(shù)據(jù)庫,超過十億字以上的應(yīng)該算是超大型數(shù)據(jù)庫。
另一方面是功能上的“大”。功能的強(qiáng)大是超大規(guī)模古籍?dāng)?shù)據(jù)庫很重要的標(biāo)志。怎樣才能算功能的強(qiáng)大?到目前為止,我們雖然已經(jīng)做了很多古籍?dāng)?shù)字化的工作,比如把古籍做了一般的簡單掃描,入庫后也可以進(jìn)行一般的查找,實(shí)現(xiàn)了一部分功能,但這個功能和我們想做的超大規(guī)模古籍?dāng)?shù)據(jù)庫還有差距。按照我的理解,超大規(guī)模古籍?dāng)?shù)據(jù)庫應(yīng)該有這樣幾方面的特點(diǎn):第一,因?yàn)樗谐笠?guī)模的數(shù)據(jù)量,其中文獻(xiàn)種類和內(nèi)容都非常豐富,有更大的包容性。和過去中小規(guī)模數(shù)據(jù)庫只是某一個類別、某一個專題的內(nèi)容相比,通過這樣的數(shù)據(jù)庫進(jìn)行綜合整理之后,可以把更多更豐富的信息匯集在一起,可以獲得更多、更全面、更準(zhǔn)確的資料,為研究者提供更多的便利。第二,超大規(guī)模古籍?dāng)?shù)據(jù)庫的建設(shè)因?yàn)橛懈嗉夹g(shù)層面的支持,所以能夠?qū)崿F(xiàn)更多的功能,如對古籍的自動識別、自動標(biāo)點(diǎn)、自動排版、智能檢索、智能分析,可實(shí)現(xiàn)多種數(shù)據(jù)格式的轉(zhuǎn)換和輸出,可以滿足文、史、哲、經(jīng)各學(xué)科研究所提出的各種特殊需要,更能適應(yīng)跨學(xué)科綜合研究的高級需要。只有具備了這樣兩個特點(diǎn),才能稱之為超大規(guī)模古籍?dāng)?shù)據(jù)庫。
為什么“大”就會帶來一些功能上的突破呢?比如說,關(guān)于“中國古代詩詞韻律的發(fā)展?fàn)顩r”這一研究課題。一直以來,我們的理想是把先秦、兩漢、魏晉南北朝到唐宋時代每一首詩、每一首詞的每一個字的讀音、聲調(diào)、韻部等全都統(tǒng)計(jì)出來,由此再考察中國古代詩歌聲律的發(fā)展,弄清它們之間的變化。這在過去是不可能做到的。現(xiàn)在有了中國古代詩歌文本和古代漢語音韻數(shù)據(jù)庫,這樣的工作就可以做了。超大規(guī)模古籍?dāng)?shù)據(jù)庫的建設(shè),可以使得學(xué)者們從那種非常繁重的翻檢古書的勞動當(dāng)中騰出更多的時間,發(fā)現(xiàn)前人未能發(fā)現(xiàn)的課題,或者前人雖已發(fā)現(xiàn)但囿于精力和技術(shù)條件未能研究的課題,進(jìn)行更多的創(chuàng)造性勞動。將人文社會科學(xué)的研究和現(xiàn)代科學(xué)技術(shù)手段完美結(jié)合起來,是未來的發(fā)展方向。超大規(guī)模古籍?dāng)?shù)據(jù)庫所帶來的功能是不可比擬的,對于學(xué)術(shù)的發(fā)展和人文學(xué)科的建設(shè)的推動都是巨大的。
再比如,《二十四史》的標(biāo)點(diǎn)。這項(xiàng)工作從上世紀(jì)五十年代末開始,先后參與的專家學(xué)者上百人,歷時20年才得以完成。如果用同樣的傳統(tǒng)人工方式,來標(biāo)點(diǎn)總字?jǐn)?shù)是《二十四史》25倍的《四庫全書》,同樣人力需要工作500年時間,這顯然是不現(xiàn)實(shí)的。今天就不一樣了,借助于現(xiàn)代技術(shù)手段來標(biāo)點(diǎn),效率可以提高50倍以上。也就是說,最多10年就可以完成《四庫全書》的標(biāo)點(diǎn)整理工作。而且在這期間,技術(shù)還會不斷進(jìn)步,時間因此還會縮短。我們預(yù)計(jì),用5到8年把這個工作完成,是有相當(dāng)把握的。
孫茂松:利用現(xiàn)代信息技術(shù),將傳統(tǒng)文化典籍以數(shù)字化“大數(shù)據(jù)”的形式保留下來,并且發(fā)揚(yáng)光大,正在日益引起許多國家,特別是發(fā)達(dá)國家的重視。一個典型的例子是,由哈佛大學(xué)、麻省理工學(xué)院、Google和大英百科全書的專家學(xué)者組成的一個研究小組,2011年1月在著名的《科學(xué)》雜志發(fā)表了一篇題為《基于數(shù)以百萬計(jì)數(shù)字化圖書的文化定量分析》的文章。該項(xiàng)工作利用Google Books中數(shù)字化質(zhì)量比較高的超過500萬種圖書,時間跨度從公元1500年到公元2000年,規(guī)模總計(jì)5000億詞,其中英文3610億詞、法文450億詞、西班牙文450億詞、德文370億詞、中文130億詞、俄文350億詞,以及希伯來文20億詞(據(jù)估計(jì),占人類有史以來出版圖書總種數(shù)的4%),借鑒基因組學(xué)(Genomics)的思路,對這些圖書組成的“大數(shù)據(jù)”進(jìn)行分析,如發(fā)現(xiàn)單詞或人名在歷史文獻(xiàn)中隨時間變化的頻率,由此推導(dǎo)出人類文化的發(fā)展趨勢和演變規(guī)律。他們把這個全新的研究領(lǐng)域稱為“文化組學(xué)”(Culturomics)。這個例子表現(xiàn)了歷史文獻(xiàn)“大數(shù)據(jù)”建設(shè)與高水平研究的成功結(jié)合。值得注意的是,Google Books中的中文圖書其實(shí)已經(jīng)具有相當(dāng)規(guī)模了,這顯然對我們形成了一種巨大壓力。還需要指出的一點(diǎn),與現(xiàn)實(shí)世界中源源不斷產(chǎn)生的科研大數(shù)據(jù)、互聯(lián)網(wǎng)大數(shù)據(jù)、企業(yè)大數(shù)據(jù)、感知大數(shù)據(jù)相比,歷史文獻(xiàn)大數(shù)據(jù)的總量規(guī)模要小得多,并且基本上已經(jīng)“固化”了,原則上不會產(chǎn)生新的數(shù)據(jù),數(shù)字化一點(diǎn)就離目標(biāo)近一點(diǎn),只要我們本著“愚公移山”的精神,就一定可以完成中國古籍?dāng)?shù)字化的歷史重任。
二
主持人:標(biāo)點(diǎn)整理《四庫全書》的藍(lán)圖真是令人振奮。我在想,如果把它作為我們國家應(yīng)對大數(shù)據(jù)時代的挑戰(zhàn),一個率先建設(shè)的超大規(guī)模古籍?dāng)?shù)據(jù)庫,一個文化強(qiáng)國的龍頭工程,諸位專家認(rèn)為會有怎樣的文化意義和社會影響?
張 濤:《四庫全書》的整理是一個意義非凡的大型項(xiàng)目。如何更好地閱讀和使用《四庫全書》,怎樣進(jìn)一步挖掘其在各個方面的價值,實(shí)際上也是我們古典文獻(xiàn)學(xué)、歷史文獻(xiàn)學(xué),特別是新興的數(shù)字文獻(xiàn)學(xué)學(xué)科建設(shè)和學(xué)術(shù)發(fā)展需要面對的一個重要課題。
根據(jù)我對古籍的認(rèn)識,《四庫全書》的版本,也就是庫本,其文獻(xiàn)價值不容低估。有許多重要典籍,庫本是最好的。而要深度挖掘和廣泛應(yīng)用庫本在學(xué)術(shù)研究、文化推廣、社會影響等方面的價值,就需要超大規(guī)模數(shù)據(jù)庫的建設(shè)。
《易經(jīng)》是群經(jīng)之首。我們最近幾年一直在做易學(xué)典籍的整理研究工作,其中一個重要項(xiàng)目就是與首都師范大學(xué)電子文獻(xiàn)研究所合作研發(fā)《中華易學(xué)全書》。這是一次大型專題數(shù)據(jù)庫建設(shè),是古籍?dāng)?shù)字化的一個很好的示范項(xiàng)目,也是我們進(jìn)一步深刻認(rèn)識數(shù)字文獻(xiàn)學(xué)之價值和意義的一個重要切入點(diǎn)。
《四庫》經(jīng)部易類圖書共有158種,1757卷,2400多萬字,可謂集大成,都是經(jīng)典中的經(jīng)典。這說明四庫館臣的學(xué)術(shù)眼光、文化修養(yǎng)和研究水平是值得景仰和稱道的,而數(shù)據(jù)庫的建設(shè)又凸顯了這些易學(xué)典籍的價值。尤其現(xiàn)在是一個讀圖時代,需要有高清晰度的易圖。以前出書的時候,光易卦符號和易圖就很難弄好,現(xiàn)在首都師范大學(xué)電子文獻(xiàn)研究所把這個問題解決了。有了高清晰度的易圖,對易學(xué)研究者來說是一個大大的驚喜,其中的學(xué)術(shù)價值自然也是毋庸置疑的。
另外我認(rèn)為,雖然《四庫全書》的紙質(zhì)版印了這么多,但翻閱、查找極其不便。盡管現(xiàn)在已有可以檢索的電子版,但沒有標(biāo)點(diǎn)整理,存在不少問題。因此,超大規(guī)模古籍?dāng)?shù)據(jù)庫建設(shè),先選擇《四庫全書》作為一個切入點(diǎn),以后再選擇更多的文化經(jīng)典,這是切實(shí)可行、簡捷高效的工作思路,也符合學(xué)術(shù)研究的發(fā)展規(guī)律。
國家要求中華文化應(yīng)以更大的步伐走出去,并不斷擴(kuò)大在世界文明對話中的話語權(quán),大規(guī)模古籍?dāng)?shù)據(jù)化正順應(yīng)了這一要求,將大大助力中華文化的對外傳播,助力更好地搭建中外文明對話的橋梁,推動人類文明進(jìn)一步向前發(fā)展。
孫茂松:可以預(yù)期,這個古籍?dāng)?shù)據(jù)庫一旦建成,將對推動我國的文化傳承事業(yè)發(fā)揮重要作用,尤其是為相關(guān)研究的開展提供堅(jiān)實(shí)的數(shù)據(jù)基礎(chǔ)。我在前面講過,國際上基于歷史文獻(xiàn)數(shù)據(jù)庫開展的研究是成果眾多的。如哈佛大學(xué)和麻省理工學(xué)院的學(xué)者2007年10月在著名的《自然》雜志上發(fā)表的文章《語言演化動力學(xué)的定量化》,利用一個規(guī)模近1800萬詞、跨度長達(dá)1200年的英語歷時語料庫CELEX,通過定量分析揭示了英語不規(guī)則動詞向規(guī)則動詞的演化規(guī)律。再如,多倫多大學(xué)的學(xué)者最近借助計(jì)算機(jī)統(tǒng)計(jì)技術(shù)對大約100多萬份中世紀(jì)英國的契據(jù)(其中大多數(shù)契據(jù)都沒有標(biāo)明年代)進(jìn)行斷代:他們使用1萬份署有年代的契據(jù),考察所使用的語言隨時間的變化情況,以此來確定其他契據(jù)的年代,取得了有價值的實(shí)驗(yàn)結(jié)果。此外,從2007年開始,歐洲每年都舉辦“文化遺產(chǎn)、社會科學(xué)和人類學(xué)中的語言技術(shù)論壇”(LaTeCH),研討的話題包括:文化遺產(chǎn)、社會科學(xué)和人類學(xué)中的知識表示、知識發(fā)現(xiàn)和文本挖掘、本體、數(shù)據(jù)模型和層級體系的自動構(gòu)建和標(biāo)準(zhǔn)化、語篇分析、不同來源、載體信息的鏈接和檢索等。我國在這方面的研究實(shí)際上是落后了,需要奮起直追。依托“超大規(guī)模古籍?dāng)?shù)據(jù)庫”,可做的事情有很多,如計(jì)算機(jī)自動作詩和集句、歷史文獻(xiàn)斷代和作者推斷、中國歷史典籍和古典文學(xué)作品的詞匯層語言加工、中國傳統(tǒng)文化本體體系和知識圖譜構(gòu)建、中國傳統(tǒng)文化基因在現(xiàn)代生活中使用狀況大規(guī)模量化調(diào)查等,囿于時間關(guān)系,我在這里就不展開談了。
三
主持人:尹所長,就目前你們所掌握的技術(shù)而言,對超大規(guī)模古籍?dāng)?shù)據(jù)庫建設(shè)的支撐性到底如何,你們能夠建成一個怎樣規(guī)模的大數(shù)據(jù)庫?
尹小林:超大規(guī)模古籍?dāng)?shù)據(jù)庫建設(shè)專業(yè)性很強(qiáng),難度非常大,除了需要計(jì)算機(jī)硬件、軟件、網(wǎng)絡(luò)等現(xiàn)代信息技術(shù)外,還涉及到文字、版本、目錄、訓(xùn)詁、音韻等多個學(xué)科。只有打通這些專業(yè)領(lǐng)域,才能將時間跨度上千年、不同地域的存世文獻(xiàn)整合在一個大系統(tǒng)下。為什么我們今天能夠提出這個問題?因?yàn)槲覀冊诮ㄔO(shè)超大規(guī)模古籍?dāng)?shù)據(jù)庫的核心技術(shù)方面,已經(jīng)取得重大突破。以前的一個數(shù)據(jù)庫為什么大多只有幾百萬字、幾千萬字,至多一兩億字?原因就在于技術(shù)上缺少一個環(huán)節(jié),缺少對超大規(guī)模數(shù)據(jù)進(jìn)行加工整合的能力。
具體需要哪些技術(shù)呢?首先需要一個龐大的字庫,這個字庫必須能夠把所有數(shù)據(jù)文獻(xiàn)中所用的不同的字在同一個平臺上顯示。現(xiàn)在的計(jì)算機(jī)字庫已有很大的改觀,Unicode有7萬多字,再加上一些造字,漢語存世古籍的字庫問題基本上解決了。
第二個問題是數(shù)據(jù)加工。過去十年,我國處理轉(zhuǎn)換的古籍大概已經(jīng)有數(shù)十億字,如《四庫全書》有7億字,《中國基本古籍庫》有20億字,這些古籍都已經(jīng)完成了掃描識別轉(zhuǎn)換。但文字的數(shù)據(jù)化轉(zhuǎn)換,只是數(shù)據(jù)庫建設(shè)的第一步。超大規(guī)模古籍?dāng)?shù)據(jù)庫不僅僅是數(shù)據(jù)量大,而且數(shù)據(jù)整理和軟件功能也需要達(dá)到一個標(biāo)準(zhǔn)。超大規(guī)模古籍?dāng)?shù)據(jù)庫中的古籍文獻(xiàn)必須是經(jīng)過標(biāo)點(diǎn)整理并進(jìn)行正確標(biāo)引的結(jié)構(gòu)數(shù)據(jù),這一環(huán)節(jié)的難度和工程量都非常大。傳統(tǒng)的人工古籍標(biāo)點(diǎn)的工作量十分巨大,而且只有經(jīng)過訓(xùn)練的專業(yè)人員才能做。按一個專家一年標(biāo)點(diǎn)50萬字的工作量計(jì)算,如果建設(shè)一個10億字的超大規(guī)模古籍?dāng)?shù)據(jù)庫,需要100個專家連續(xù)工作20年。首都師范大學(xué)電子文獻(xiàn)研究所經(jīng)過多年的潛心研究,在古籍自動標(biāo)點(diǎn)技術(shù)上取得了突破,成功開發(fā)了一套自動標(biāo)點(diǎn)軟件。去年在二十四史和唐宋詩文集上做了成功的嘗試,完成了上億字古代文獻(xiàn)的自動標(biāo)點(diǎn),正確率達(dá)90%以上,具有很高的實(shí)用價值。
主持人:你們開發(fā)這一技術(shù)大致用了多長時間?
尹小林:研制時間很長,從2003年算起,用了將近10年時間。今年年初開始投入試用。經(jīng)過測試,如果前期數(shù)據(jù)準(zhǔn)備工作做好了,每天可以標(biāo)點(diǎn)500萬字。
除了自動標(biāo)點(diǎn),我們還開發(fā)完成了自動比對、自動排版軟件。這些技術(shù)的推廣使用,可以大幅度提高古籍整理的質(zhì)量和速度,整體上降低出版成本。自動排版軟件還可應(yīng)用于網(wǎng)絡(luò)出版和個性化出版。
需要100年才能完成的事情,我們很難規(guī)劃;如果是5~8年就能完成的事,我們就可以計(jì)劃立項(xiàng)。中國歷史上有名的文化工程《四庫全書》的編撰,前后歷時十多年。除去收集圖書、編寫目錄和確定版本的時間,僅正式抄寫一項(xiàng),最多時就用了2000人,花了5年多時間。《四庫全書》收書達(dá)3400多種,都是中國文化史上的重要文獻(xiàn),全部標(biāo)點(diǎn)整理后,總規(guī)模將超過10億字。如果正式立項(xiàng),標(biāo)點(diǎn)整理可在5至8年內(nèi)完成。超大規(guī)模古籍?dāng)?shù)據(jù)庫不僅可在互聯(lián)網(wǎng)平臺上運(yùn)行,還可廣泛應(yīng)用于各種移動終端。特別值得一提的是:超大規(guī)模古籍?dāng)?shù)據(jù)庫投入使用,將進(jìn)一步提高古籍整理出版的創(chuàng)新能力和水平,為現(xiàn)代個性化出版、網(wǎng)絡(luò)出版提供強(qiáng)大支撐。
主持人:孫教授,從技術(shù)的角度,您對首都師范大學(xué)研發(fā)的古籍自動標(biāo)點(diǎn)、自動比對、自動排版三項(xiàng)技術(shù)有什么評價呢?
孫茂松:無疑,這三項(xiàng)技術(shù)對建設(shè)超大規(guī)模古籍?dāng)?shù)據(jù)庫都非常重要。分析起來,其技術(shù)難度是有所區(qū)別的。相比較而言,自動比對技術(shù)難度相對較小,但也很好地利用了計(jì)算機(jī)能夠?qū)A课谋具M(jìn)行快速查找、匹配的“天然”能力,而這一點(diǎn)恰恰是人類能力之所短,因而可以十分顯著地提升比對效率;自動排版難度更大,需要將古籍排版知識引入到計(jì)算機(jī)算法中,可以認(rèn)為是一個基于“排版知識”的古籍排版專家系統(tǒng);自動標(biāo)點(diǎn)最難,這需要在專家標(biāo)點(diǎn)過的大規(guī)模古籍語料庫的支持下,設(shè)計(jì)相應(yīng)的計(jì)算機(jī)算法,才有可能實(shí)現(xiàn)。其工作過程大體上是:計(jì)算機(jī)算法從標(biāo)點(diǎn)過的大規(guī)模古籍語料庫中學(xué)習(xí)有關(guān)標(biāo)點(diǎn)(句讀)的知識,據(jù)之對新的古籍語料進(jìn)行標(biāo)點(diǎn),經(jīng)過專家校對后的帶有標(biāo)點(diǎn)的語料再補(bǔ)充到這個語料庫中,由計(jì)算機(jī)算法再行學(xué)習(xí)。經(jīng)過這一次“輪回”,自動標(biāo)點(diǎn)的性能會得到提升。上述過程多次迭代,便有望使得自動標(biāo)點(diǎn)技術(shù)漸趨完善。錢鐘書先生在他修改過的一篇文章《電腦里的唐詩》中曾經(jīng)講過一句非常深刻的話:“能夠幫助人的電腦,需要人的更多幫助。”自動標(biāo)點(diǎn)技術(shù)在一定程度上“呼應(yīng)”了錢先生的這個想法。應(yīng)該說,自動標(biāo)點(diǎn)技術(shù)較為充分地反映了“大數(shù)據(jù)”的特點(diǎn),即:經(jīng)過標(biāo)點(diǎn)加工的數(shù)據(jù)規(guī)模越大,自動標(biāo)點(diǎn)的性能便越好,于是乎對大數(shù)據(jù)的標(biāo)點(diǎn)效率就越高,其結(jié)果是人工標(biāo)點(diǎn)數(shù)據(jù)規(guī)模的進(jìn)一步擴(kuò)大,構(gòu)成了正反饋。
主持人:這三大核心技術(shù),讓首都師大電子文獻(xiàn)研究所在中國古籍?dāng)?shù)字化的道路上有了獨(dú)領(lǐng)風(fēng)騷的能力與實(shí)力。這一點(diǎn)令人欽佩。
趙敏俐:首都師范大學(xué)早在2002年就開始了古籍?dāng)?shù)字化的建設(shè)過程,2003年成立了電子文獻(xiàn)研究所,2007年又成立了國學(xué)傳播中心。為了適應(yīng)古籍?dāng)?shù)字化建設(shè)發(fā)展的需要,2013年,我們將國學(xué)傳播中心擴(kuò)建為國學(xué)傳播研究院。在近十余年的時間內(nèi),首都師范大學(xué)在古籍?dāng)?shù)字化方面做了一系列的工作,取得了有目共睹的成績。第一項(xiàng)工作是國學(xué)網(wǎng)的建設(shè)。國學(xué)網(wǎng)建于2000年,現(xiàn)在已經(jīng)發(fā)展成世界知名的中國文化網(wǎng)站,在國內(nèi)外的人文社會科學(xué)研究領(lǐng)域里具有廣泛的影響。國學(xué)網(wǎng)的成功建設(shè),顯示了數(shù)字化技術(shù)下的網(wǎng)絡(luò)文化傳播的巨大潛力與功效。第二項(xiàng)工作是數(shù)據(jù)庫的建設(shè)。我們開發(fā)研制的《國學(xué)寶典》,從一開始就探索與國內(nèi)相關(guān)研發(fā)機(jī)構(gòu)不同的古籍?dāng)?shù)字化方式。其核心是將浩如煙海的古籍一部一部、一字一字地錄入計(jì)算機(jī)系統(tǒng),為今后日益先進(jìn)的古籍?dāng)?shù)字化技術(shù)提供堅(jiān)實(shí)的基礎(chǔ),走可持續(xù)發(fā)展之路。在此基礎(chǔ)上,我們從2002年開始,聯(lián)合國內(nèi)四所高校開發(fā)了具有多種功能的《中國古代文學(xué)電子史料庫》,匯集了將近2億字左右的文獻(xiàn)資料。第三項(xiàng)工作是學(xué)科建設(shè)。我們從2007年開始,在國內(nèi)高校設(shè)立了第一個以古籍?dāng)?shù)字化為研究對象的交叉學(xué)科——數(shù)字文獻(xiàn)學(xué),獲得了北京市教委的支持,被列為北京市重點(diǎn)學(xué)科。這是北京市所建設(shè)的第一個人文科學(xué)和自然科學(xué)的重點(diǎn)交叉學(xué)科。2013年9月,第一屆數(shù)字文獻(xiàn)學(xué)研究生入校,這在國內(nèi)也開了先例。人才的培養(yǎng),必將為“大數(shù)據(jù)庫時代”的中國傳統(tǒng)文化建設(shè)提供長久的、堅(jiān)實(shí)的支持。
我們的努力得到了國務(wù)院有關(guān)領(lǐng)導(dǎo)的高度肯定,教育部領(lǐng)導(dǎo)指示首都師范大學(xué)在以往取得成果的基礎(chǔ)上,聯(lián)合全國高等院校、各大圖書館,在大數(shù)據(jù)庫的建設(shè)方面做出新的成績,要在全國起引領(lǐng)作用。我們?yōu)榇松钍芄奈瑁窈髮⑦M(jìn)一步加快大數(shù)據(jù)庫的建設(shè),以適應(yīng)世界范圍“大數(shù)據(jù)時代”已經(jīng)到來的形勢,為全國的人文社會科學(xué)發(fā)展,繁榮社會主義文化作出應(yīng)有的貢獻(xiàn)。
四
主持人:各位專家的發(fā)言,使我們對超大規(guī)模古籍?dāng)?shù)據(jù)庫的建設(shè)充滿信心。當(dāng)然,這一工程是浩大的,面臨很多現(xiàn)實(shí)的困難。那么,還有哪些問題需要得到解決呢?
尹小林:如果這個項(xiàng)目能變成一個國家工程,動員全國高校的古籍整理力量,有充足的經(jīng)費(fèi)保障,完成這個項(xiàng)目則指日可待。總的來說,需要三個方面的條件:第一,要有觀念上的突破。堅(jiān)決打破古籍?dāng)?shù)據(jù)庫建設(shè)“小、散、亂”,各自為政的模式,形成學(xué)術(shù)共識。第二,要有體制上的變革。單純的商業(yè)模式或完全的政府立項(xiàng),都難以完成這一巨大的文化工程。沒有高校和學(xué)術(shù)界的支持,這項(xiàng)工程無法達(dá)到所需的質(zhì)量;沒有企業(yè)高效率的管理模式,成果難于推廣,無法發(fā)揮持續(xù)的影響力。政企結(jié)合,是一個高效合理的模式。第三,要有政策上的支撐。大型古籍?dāng)?shù)據(jù)庫建設(shè)涉及到許多新情況、新問題,如何處理國家和個人、局部與全局、保護(hù)與創(chuàng)新的關(guān)系,需要有關(guān)部門制訂相應(yīng)政策,扶持和鼓勵這一產(chǎn)業(yè)的健康發(fā)展。我們正處于一個偉大的時代,需要產(chǎn)生偉大的作品,創(chuàng)造偉大的成果。
主持人:這也就是說,比起技術(shù)手段來,現(xiàn)在更需要決策者的決心。這項(xiàng)工程單純依靠一個高校的一個學(xué)術(shù)機(jī)構(gòu)確實(shí)是難以完成的,需要多學(xué)科多個相關(guān)單位的通力合作,古代文史研究界和計(jì)算機(jī)信息化處理相關(guān)領(lǐng)域的合作,以及國家政策的配套,科研基金項(xiàng)目的支持等等,這樣的一些條件如果都具備了,超大規(guī)模古籍?dāng)?shù)據(jù)庫的建設(shè)就能夠開展得比較順利。
尹小林:的確,超大規(guī)模古籍?dāng)?shù)據(jù)庫建設(shè)是一個大型文化工程,非一己之力、一家之力、一時之力可以完成。像《中華大典》《清史》《儒藏》都動員了全國的專家學(xué)者,這個項(xiàng)目規(guī)模比《儒藏》《子藏》都要大得多,將來出來的成果也會大得多。
(編輯:高晴)
