作為全球首個藏文智能搜索引擎,“云藏”研發(fā)進入攻堅階段。這個集搜索引擎、藏文百科自動問答為一體的大型藏文門戶系統(tǒng)工程,將開辟新聞、網(wǎng)頁、圖片、視頻、百科、文庫、知道7個板塊。它將在滿足藏文網(wǎng)民個性化檢索需求的同時,推動藏文信息全方位融入互聯(lián)網(wǎng)世界。
滿足藏文網(wǎng)民檢索需求,推動藏文信息全方位融入互聯(lián)網(wǎng)世界
“作為全球首個藏文智能搜索引擎,‘云藏’研發(fā)進入攻堅階段?!睋?jù)青海省海南藏族自治州藏語文工作委員會辦公室主任、“云藏”項目負責人才洛介紹,目前,研發(fā)各項工作有序進行,已處于藏文信息錄入和分詞標注階段。預計2015年投入使用。
“云藏”藏文搜索引擎系統(tǒng)平臺建設(shè)項目,是一個集搜索引擎、藏文百科自動問答為一體的大型藏文門戶系統(tǒng)工程,是青海省少數(shù)民族事業(yè)“十二五”規(guī)劃中藏文信息化建設(shè)的重要組成部分,于2013年4月正式啟動。該項目由青海省海南州藏文信息技術(shù)研究中心承擔?!霸撇亍毖邪l(fā)團隊現(xiàn)有100余位工作人員,分藏文信息錄入組、分詞標注組和技術(shù)組3個小組,團隊中藏族比例達84%。
“‘云藏’將開辟新聞、網(wǎng)頁、圖片、視頻、百科、文庫、知道7個板塊。項目建成后,將成為互聯(lián)網(wǎng)藏文信息的主要來源和共享資源中心。”才洛介紹,網(wǎng)頁、圖片、新聞、視頻所涉及的藏文搜索引擎,是以一定的策略從互聯(lián)網(wǎng)上搜集、發(fā)現(xiàn)信息,對信息進行理解、提取、組織和處理,并為藏文用戶提供檢索服務(wù),從而起到信息導航的目的,讓藏文網(wǎng)民更加便捷地獲取信息,找到所求。而包括知道、文庫、百科在內(nèi)的藏文自動問答系統(tǒng),則可以看作是對藏文搜索引擎功能的一種補充。它可以讓用戶頭腦中的隱性知識變成顯性知識,通過對回答的沉淀和組織形成新的信息庫,其中信息可被用戶進一步檢索和利用。
“‘云藏’建成后,該系統(tǒng)的藏文搜索正確識別率將達95%,不僅能滿足藏文網(wǎng)民個性化的檢索需求,還將推動藏文信息全方位融入互聯(lián)網(wǎng)世界?!辈怕逭f。
實現(xiàn)系統(tǒng)開發(fā)和現(xiàn)有科研成果的轉(zhuǎn)化應(yīng)用,兼具政治、社會、文化多方面效應(yīng)
當前,搭建藏文搜索引擎和藏文自動問答系統(tǒng)平臺,推動藏文信息數(shù)字化工作迫在眉睫。據(jù)了解,在國內(nèi),漢文搜索引擎基本不具備識別少數(shù)民族文字的能力。在我國最大的搜索引擎“百度”的搜索頁面輸入的藏文,會被當作亂碼處理。在國際上,“谷歌”具有藏文搜索功能,但它是用簡單的數(shù)據(jù)匹配的模式實現(xiàn)搜索,存在不能識別語義、詞匯打亂導致搜索結(jié)果不穩(wěn)定等問題。
“‘云藏’首次提出了系統(tǒng)開發(fā)和現(xiàn)有科研成果轉(zhuǎn)化應(yīng)用的具體策略,具有較高的科技效應(yīng)、文化效應(yīng)和社會效應(yīng)。在抵御境外藏文網(wǎng)絡(luò)信息滲透方面,具有不可忽略的支撐作用?!辈怕逭f,搜索引擎作為文化與歷史傳承的新載體,對一國的文化安全有著相當重要的意義。任何搜索引擎都是有立場、有傾向的。在互聯(lián)網(wǎng)時代,抓住搜索引擎,也就意味著抓住了話語權(quán),抓住了互聯(lián)網(wǎng)信息傳遞的主動權(quán)。
據(jù)了解,目前,已知的藏文正規(guī)網(wǎng)站大約有300多個,藏文網(wǎng)頁超過1個億。初步估算,“云藏”運行初期,青、藏、甘、川、滇五省區(qū)的藏文用戶數(shù)量約為120萬,隨著搜索引擎產(chǎn)品的推廣和宣傳,用戶量將達200萬。
“要想保證藏文信息安全以及藏文信息技術(shù)的安全,就必須研制自己的藏文搜索引擎系統(tǒng)平臺。只有這樣,才能牢固樹立我國在這一領(lǐng)域的主導地位?!辈怕逭f。
突破三大技術(shù)難題,未來發(fā)展需社會各界支持
首先,是藏文搜索引擎的核心技術(shù)問題?!鞍俣取钡人阉饕鏋楹尾荒茏R別藏文?這是因為其缺乏藏文搜索引擎的核心技術(shù)——賦予網(wǎng)絡(luò)爬蟲(一種按照一定規(guī)則,自動抓取萬維網(wǎng)信息的程序或者腳本)識別藏文的能力。而這一核心技術(shù)的關(guān)鍵在于藏文分詞和詞性標注。
作為這一核心技術(shù)的持有者,西北民族大學中國藏文典籍全文數(shù)字化研究所已經(jīng)與“云藏”實現(xiàn)合作?!霸撇亍辈匚姆衷~及詞性標注計劃完成100萬條,目前已完成30萬條。
其次,是實現(xiàn)智能搜索必備的技術(shù)支撐。為了使“云藏”具備從互聯(lián)網(wǎng)上自動抓取藏文網(wǎng)頁,進行自動分詞及詞性標注處理,并自動提取關(guān)鍵詞建立索引數(shù)據(jù)庫等功能,還要研究攻關(guān)搜索器、索引器和檢索器這幾方面的內(nèi)容及平臺。
目前,北京線點科技有限公司與“云藏”聯(lián)手,承接欄目分類、頁面設(shè)置、網(wǎng)絡(luò)爬蟲與分詞詞性標注兼容與技術(shù)對接等工作。
“我們采用的是高校、地方、企業(yè)三方合作的協(xié)同創(chuàng)新模式。”才洛說,在信息技術(shù)高歌猛進的今天,建設(shè)少數(shù)民族文字搜索引擎依然存在現(xiàn)實的難度。這項工程必須多方合作才能完成。民族語文的精通、核心技術(shù)的掌握、軟件開發(fā)的能力,缺哪樣都不行。
第三,是藏文百科、文庫和自動問答數(shù)據(jù)庫的建設(shè)。這是一項從零開始的浩大工程?!斑@項工程不是把百科全書掃描錄入那么簡單?!辈怕逭f,它覆蓋文化、衛(wèi)生、教育、科技、宗教、人物等方方面面的內(nèi)容,需要凝聚全社會的力量,經(jīng)歷數(shù)年乃至數(shù)十年的時間才能完成。
為了吸引人們參與這項工作,今年4月,“云藏”面向社會招賢納士。在社會各界的積極響應(yīng)下,“云藏”已擁有30余位專攻數(shù)據(jù)庫的兼職“專家”。
“‘云藏’自己的數(shù)據(jù)庫建成后,網(wǎng)民輸入一個詞匯,就會有對應(yīng)的百科知識。如果詞條內(nèi)容空缺,系統(tǒng)會提示網(wǎng)民自主添加,后臺審核通過即可錄入數(shù)據(jù)庫。這種方式,將使數(shù)據(jù)庫不斷地豐富、擴充?!辈怕逭f。
“目前,項目遇到的主要問題還是資金和人才缺乏?!辈怕逑嘈牛邳h和政府的堅強領(lǐng)導下,隨著越來越多的人關(guān)注“云藏”,這些問題終將得以解決。
來源:中國民族報