何燕龍(右三)和同事探討工作。 受訪者供圖
何燕龍,中國(guó)民族語(yǔ)文翻譯局信息處副處長(zhǎng)、高級(jí)工程師,民族語(yǔ)文軟件研發(fā)基地負(fù)責(zé)人。入選國(guó)家民委領(lǐng)軍人才支持計(jì)劃、創(chuàng)新團(tuán)隊(duì)支持計(jì)劃,獲保密科學(xué)技術(shù)獎(jiǎng)二等獎(jiǎng)、錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)二等獎(jiǎng)。
近年來(lái),我國(guó)在國(guó)際自然語(yǔ)言處理領(lǐng)域的表現(xiàn)較為活躍,科研成果數(shù)量也在逼近美國(guó),但就少數(shù)民族語(yǔ)文的信息化而言,還處在較低水平。
“我從事了26年的計(jì)算機(jī)應(yīng)用與民族語(yǔ)文軟件研發(fā)工作。”何燕龍說(shuō),“民族語(yǔ)文翻譯軟件助力民族工作、服務(wù)國(guó)家大局的目標(biāo),始終引領(lǐng)著我工作的方向,并給予了我堅(jiān)守這份事業(yè)的動(dòng)力和信心?!?/p>
搭建民族語(yǔ)文翻譯的橋梁
1987年,何燕龍以優(yōu)異的成績(jī)考入北京信息工程學(xué)院計(jì)算機(jī)系(現(xiàn)北京信息科技大學(xué))。1991年畢業(yè)后,他被分配到航天部第一研究院101所,從事運(yùn)載火箭自動(dòng)控制工作。1993年7月,何燕龍調(diào)入中國(guó)民族語(yǔ)文翻譯局,從事計(jì)算機(jī)應(yīng)用與民族語(yǔ)文軟件研發(fā)工作。
調(diào)入中國(guó)民族語(yǔ)文翻譯局工作后,何燕龍每年都會(huì)參加全國(guó)兩會(huì)民族語(yǔ)文翻譯組的工作。“因?yàn)橐y(tǒng)一集中封閉辦公,那會(huì)兒我的同事們每次都要背著大本小本的辭書(shū),擺在樓道里,以便查閱?!焙窝帻堈f(shuō),當(dāng)時(shí)他就想,如果能研發(fā)出一款軟件,可以讓大家不背這些書(shū),只帶著軟件上會(huì),那該多方便。
如今,20多年過(guò)去了,何燕龍實(shí)現(xiàn)了這個(gè)愿望?!拔业耐聜?cè)缇筒槐匙值?、辭典上會(huì)了。我們最新研發(fā)的翻譯軟件,在黨的十九大和近年來(lái)的全國(guó)兩會(huì)民族語(yǔ)文翻譯工作中都發(fā)揮了重要作用。”何燕龍說(shuō)。
上世紀(jì)90年代末,民族語(yǔ)文信息化工作進(jìn)入詞處理階段。該階段的主要工作是構(gòu)建語(yǔ)料庫(kù),搭建和訓(xùn)練自動(dòng)加工處理模型。
2000年前后,何燕龍出版了著作《北大方正書(shū)版實(shí)用手冊(cè)》和《北大方正飛騰實(shí)用手冊(cè)》。2007年左右,他開(kāi)始研究民族語(yǔ)文輸入法和校對(duì)軟件,隨后帶領(lǐng)翻譯局信息化團(tuán)隊(duì),先后完成了多種民族語(yǔ)文翻譯輔助軟件的研發(fā),其中包括蒙古、藏、維吾爾、哈薩克、朝鮮、彝、壯7種民族文電子詞典及輔助翻譯軟件、校對(duì)軟件,蒙古文正音正形、哈薩克文與斯拉夫文、朝鮮文與韓文等6款編碼轉(zhuǎn)換軟件,漢文與7種民族語(yǔ)文對(duì)照查詢系統(tǒng),以及Windows7軟件等,為今后的機(jī)器翻譯打下了基礎(chǔ)。
2010年左右,民族語(yǔ)文信息化工作進(jìn)入智能化產(chǎn)品及應(yīng)用階段,特別是深度神經(jīng)網(wǎng)絡(luò)技術(shù)的成熟與應(yīng)用。這個(gè)階段,民族語(yǔ)文翻譯局建立了國(guó)內(nèi)首個(gè)民族文多語(yǔ)種智能翻譯及語(yǔ)音系統(tǒng)平臺(tái),被國(guó)家民委列為“民族語(yǔ)文軟件研發(fā)基地”。
作為信息化平臺(tái)的工程師和研發(fā)基地的負(fù)責(zé)人,2013年以來(lái),何燕龍主持研發(fā)了民漢對(duì)話通、語(yǔ)音轉(zhuǎn)寫(xiě)通、民漢智能語(yǔ)音翻譯軟件、民漢實(shí)時(shí)翻譯軟件、民族文照相翻譯軟件、民族文手機(jī)輸入法軟件、民族文電子詞典和校對(duì)軟件等50多款民族文應(yīng)用軟件。
2012年、2018年,團(tuán)隊(duì)研發(fā)成果“彝文、壯文電子詞典及輔助翻譯軟件”和“維漢智能翻譯系統(tǒng)及其應(yīng)用”分別榮獲該年度錢(qián)偉長(zhǎng)中文信息處理科學(xué)技術(shù)二等獎(jiǎng);2018年,“專用計(jì)算機(jī)民族語(yǔ)言應(yīng)用”項(xiàng)目榮獲國(guó)家保密局科學(xué)技術(shù)獎(jiǎng)二等獎(jiǎng),“藏漢智能語(yǔ)音翻譯系統(tǒng)”和“藏漢語(yǔ)音轉(zhuǎn)寫(xiě)通”榮獲中國(guó)網(wǎng)絡(luò)社會(huì)組織聯(lián)合會(huì)應(yīng)用工具類優(yōu)秀作品獎(jiǎng)。
同時(shí),在僅3年多的時(shí)間里,何燕龍還帶領(lǐng)專業(yè)數(shù)據(jù)整理團(tuán)隊(duì),積累了5000多萬(wàn)句多語(yǔ)種平行語(yǔ)料和上萬(wàn)小時(shí)的語(yǔ)音數(shù)據(jù)。在研發(fā)過(guò)程中,他們克服重重困難,開(kāi)拓探索出了翻譯局自有的語(yǔ)料收集方式。
2019年,7個(gè)語(yǔ)種語(yǔ)音識(shí)別軟件升級(jí)后,蒙古文語(yǔ)音數(shù)據(jù)從1200小時(shí)上升到3000小時(shí),安多藏文從1500小時(shí)上升為2400小時(shí),康巴藏文從1200小時(shí)上升到2000個(gè)小時(shí),維吾爾文從2500個(gè)小時(shí)上升到4000個(gè)小時(shí)。此外,新收錄哈薩克文1000個(gè)小時(shí),朝鮮文600個(gè)小時(shí),彝文840個(gè)小時(shí),壯文400個(gè)小時(shí)。
這些數(shù)據(jù)實(shí)現(xiàn)了民族語(yǔ)文信息化工作的飛躍,“翻譯局信息化工作能有今天的成績(jī),要感恩中央對(duì)民族語(yǔ)文信息化工作的高度重視,也離不開(kāi)各語(yǔ)文室同事們的大力支持和協(xié)助?!焙窝帻堈f(shuō)。
做好民族語(yǔ)文信息化工作是愛(ài)好
何燕龍認(rèn)為,完美的研發(fā)沒(méi)有捷徑,他關(guān)注所有的細(xì)節(jié)?!懊褡逭Z(yǔ)文信息化軟件的研發(fā)過(guò)程要求非常嚴(yán)格,不允許有任何的偏差,甚至小的瑕疵?!焙窝帻堈f(shuō)。新入職的小伙子們,經(jīng)常會(huì)因?yàn)榫W(wǎng)線接口不牢固而被批評(píng)。在年輕人看來(lái),有些松動(dòng)的接口一樣可以使用,并不影響效果,但何燕龍卻要求盡善盡美。
身邊的少數(shù)民族同事曾這樣問(wèn)何燕龍:“您是漢族,不會(huì)我們的母語(yǔ),但您做起民族語(yǔ)文信息化研究,一點(diǎn)不遜色于我們本民族的專家學(xué)者,您是怎么做到的?”
“能夠做好民族語(yǔ)文信息化工作,不在于我是不是少數(shù)民族,這是我的愛(ài)好。做愛(ài)好的事,很幸福!”何燕龍這樣回答。
當(dāng)今世界,大數(shù)據(jù)、人工智能等現(xiàn)代信息技術(shù)不斷取得突破,數(shù)字經(jīng)濟(jì)蓬勃發(fā)展。近年來(lái),中國(guó)民族語(yǔ)文翻譯局積極適應(yīng)民族工作和信息化時(shí)代新形勢(shì),加大了民族語(yǔ)文翻譯應(yīng)用研究和基礎(chǔ)工程建設(shè),在民族語(yǔ)文信息化建設(shè)方面取得了突破性成果,并已應(yīng)用于國(guó)家安全、司法審判、新聞廣播、扶貧駐村、雙語(yǔ)學(xué)習(xí)與國(guó)家通用語(yǔ)言推廣等領(lǐng)域,為國(guó)家需要和民族地區(qū)實(shí)際需求提供了及時(shí)有力的支持。
“民族語(yǔ)文信息化建設(shè)前景廣闊,我為自己能夠從事這項(xiàng)事業(yè)感到榮幸?!焙窝帻堈f(shuō),“同時(shí)我們也要清醒地認(rèn)識(shí)到,民族語(yǔ)文信息化要跟上時(shí)代步伐,從跟跑實(shí)現(xiàn)并跑,再到領(lǐng)跑,還有很長(zhǎng)的路要走,這需要我們加倍努力和更勤奮地付出?!?/p>
作者:樊焓希
資料來(lái)源:中國(guó)民族報(bào)