二、計算語言學
標注、分詞及其算法是計算語言學關注的重點,是藏文信息處理的基礎性問題,也是藏文信息化建設的關鍵因素。相關的研究成果有:
鄭亞楠、珠杰的《基于詞向量的藏文詞性標注方法研究》(《中文信息學報》第1期)一文,提出一種基于詞向量模型的詞性標注方法和相應算法。該方法首先利用詞向量的語義近似計算功能,擴展標注詞典;其次,結合語義近似計算和標注詞典,完成詞性標注。實驗結果表明,該方法能夠快速有效地擴大標注詞典規(guī)模,并能取得較好的標注結果。龍從軍、劉匯丹、吳健的《藏語音節(jié)標注研究》(《中文信息學報》第4期)一文,對藏語音節(jié)的定義進行了界定,提出音節(jié)的性質(zhì)分類及標注原則,利用統(tǒng)計模型,在約24萬個音節(jié)的中小學語文教材語料庫中進行實驗,音節(jié)性質(zhì)標注的正確率為93.5208%。在此基礎上,把音節(jié)性質(zhì)標注信息用到詞性標注中。實驗結果表明:即使在音節(jié)性質(zhì)標注存在一定錯誤的情況下,詞性標注的正確率也提高到94.1967%;如果在保證音節(jié)性質(zhì)標注完全正確的情況下,詞性標注的正確率可以提高到97.7754%,這說明音節(jié)性質(zhì)標注信息對詞性標注有幫助。羊毛卓么的《基于HMM藏文詞性標注的研究》(《信息系統(tǒng)工程》第10期)一文,以藏語語料為切入點,運用現(xiàn)代化Viterbi算法來展開對藏文信息中詞性的注釋的系統(tǒng)研究。結合研究結果發(fā)現(xiàn),基于數(shù)據(jù)統(tǒng)計模式展開的詞性標注模式,可以切實有效提升其正確率,為實踐推廣產(chǎn)生了良好的參考價值。李亞超、加羊吉、江靜、何向真、于洪志的《融合無監(jiān)督特征的藏文分詞方法研究》(《中文信息學報》第2期)一文,從無標注語料中抽取邊界熵特征、鄰接變化數(shù)特征、無監(jiān)督間隔標注等無監(jiān)督特征,并將之融合到基于序列標注的分詞系統(tǒng)中。從實驗結果可以看出,與基線藏文分詞系統(tǒng)相比,分詞F值提高了0.97%,并且未登錄詞識別結果也有較大的提高。拉巴頓珠、歐珠、趙棟材等的《藏文自動分詞系統(tǒng)中虛詞識別算法研究》(《計算機應用與軟件》第9期)一文根據(jù)傳統(tǒng)藏文文法,描述了藏文虛詞在文本中不同的表現(xiàn)形式,用規(guī)則和統(tǒng)計相結合的方法,建立了較為全面的虛詞知識庫和規(guī)則庫,并給出切分用虛詞分塊算法,該方法對不同領域的3200個較典型的藏文句子進行了測試,結果表明,該方法的虛詞識別率高達98%以上。江濤、袁斌、于洪志、加羊吉等的《基于多特征的藏文微博情感傾向性分析》(《中文信息學報》第3期)一文,提出了基于多特征的情感傾向性分析算法,算法使用情感詞、詞性序列、句式信息和表情符號作為特征,并針對藏文微博常出現(xiàn)中文表述的情況,將中文的情感信息也作為特征進行情感計算,利用雙語情感特征有效提高了情感傾向性分析的效果。實驗顯示,該方法對純藏文表述的微博情感傾向性分析正確率可達79.8%,針對藏漢雙語表述的微博在加入中文情感詞、中文標點符號等特征后,正確率能夠達到82.8%。徐濤、藍傳锜的《基于卡方統(tǒng)計量的藏文新聞網(wǎng)頁關鍵詞提取方法》(《電腦知識與技術》第26期)一文,該文將卡方統(tǒng)計量進行改進,運用詞與詞推薦的思想進行關鍵詞抽取。通過藏文新聞網(wǎng)頁實驗結果表明,該文的方法優(yōu)于融入位置信息的TF/IDF。春燕、曲珍、許寧的《面向藏文基本集編碼的單模式匹配算法研究》(《西藏科技》第3期)一文提出一種改進的針對藏文編碼的BMT(Boyer Moore Tibet)模式匹配算法。官卻多杰、關白的《計算機識別藏文音節(jié)構件的方法研究》(《現(xiàn)代電子技術》第10期)一文依據(jù)藏文字性組織法規(guī)定的音節(jié)組合規(guī)則和組合結構,提出先確定藏文音節(jié)中作為核心構件的基字,再依據(jù)基字判斷出其他構件的算法,結合此算法對藏文中出現(xiàn)的其他特殊音節(jié)進行了特殊的構件識別處理。通過測試驗證算法的可行性,測試結果表明,該算法能夠正確識別符合組合規(guī)則和結構的藏文音節(jié),對特殊音節(jié)也有較好的識別能力。李加才讓、安見才讓的《一種用于藏英文混合文本壓縮的改進LZW算法》(《軟件工程》第6期)一文根據(jù)藏文文本的特點,提出兩種改進的LZW數(shù)據(jù)壓縮算法對藏英文混合文本進行數(shù)據(jù)壓縮并無損解壓。通過實驗結果表明,該算法是一個適應于不同場合的文本壓縮技術。普次仁、侯佳林、劉月、翟東海等的《深度學習算法在藏文情感分析中的應用研究》(《計算機科學與探索》第7期)一文,將深度學習領域內(nèi)的遞歸自編碼算法引入藏文情感分析中,以更深層次提取語義情感信息。實驗表明,在最佳參數(shù)組合下,所提算法準確度比傳統(tǒng)機器學習算法中性能較好的語義空間模型高約8.6%。艾金勇的《融合語義知識的藏文網(wǎng)頁關鍵詞提取方法研究》(《圖書館學研究》第3期)和《結合語義知識的藏文網(wǎng)頁主題句抽取算法研究》(《圖書館理論與實踐》第8期)兩文,歸納整理了藏文網(wǎng)頁的結構特征,在借鑒中英文關鍵詞和主題句抽取方法的基礎上,設計實現(xiàn)了融合語義知識的藏文網(wǎng)頁關鍵詞抽取算法。該算法利用藏文文本特征實現(xiàn)了網(wǎng)頁內(nèi)容模塊的智能識別,在對識別的文本塊進行自動分詞后,采用改進的TF-IDF算法得到基礎詞集,然后根據(jù)詞向量特征進行基礎詞的語義擴展構建候選關鍵詞集,最后利用候選關鍵詞之間的語義相關度值,確立藏文網(wǎng)頁的關鍵詞。
實用軟件的開發(fā)同樣是藏語文信息化建設的重要組成部分。相關的研究成果有:李自清的《基于ssi框架藏語/漢語在線教育系統(tǒng)的設計與實現(xiàn)》(《軟件》第4期)一文,設計和完成了基于spring+spring MVC+iBatis藏語/漢語遠程教育系統(tǒng)的在線學習平臺,介紹了在Eclipse開發(fā)平臺下,利用spring、spring MVC、iBatis技術開發(fā)該平臺。主要討論了系統(tǒng)所涉及的相關技術,設計的思想以及系統(tǒng)各功能模塊的設計與實現(xiàn)。陳小瑩的《藏文百科知識問答系統(tǒng)的設計與研究》(《智能計算機與應用》第4期)一文參照中英文知識問答系統(tǒng)的設計方法,建立藏文百科知識庫,在句法分析的基礎上,設計藏文百科知識的自動問答系統(tǒng)。山發(fā)、富春燕、李婷、旦增多吉、李凌的《基于Android平臺的藏文駕考軟件》(《智庫時代》第8期)一文,介紹了針對藏族地區(qū)群眾需求而設計的一款Android平臺下的藏語駕考APP。
相關的研究還有:陳小瑩的《現(xiàn)代藏文中黏著語的規(guī)范化處理》(《電腦與信息技術》第1期)一文,對黏著語產(chǎn)生的背景和意義進行介紹,按照黏著語不同的形成原因進行分類處理,最終實現(xiàn)黏著語的規(guī)范化處理。孟雯、江荻的《藏文詞典排序原理與查詞典的方法》(《西北民族大學學報》哲社版第3期)一文,詳細敘述了藏文詞典的檢索方法,并配以案例加以說明。這些內(nèi)容對于學習者和使用者都具有一定的實用價值。仁青東主、安見才讓的《藏文字母的信息熵》(《電子技術與軟件工程》第15期)一文,用擴大容量的方法統(tǒng)計了藏文字母的信息熵,并用zipf定律進行了理論上的說明。王維蘭、盧小寶、蔡正琦、沈文韜、付吉、才科扎西的《基于部件組合的聯(lián)機手寫“藏文—梵文”樣本生成》(《中文信息學報》第5期)一文,提供了一種基于部件組合的“藏文—梵文”手寫樣本生成方法,主要包括:(1)確定“藏文—梵文”字符集和部件集;(2)獲取“藏文—梵文”字丁的部件位置信息;(3)采集聯(lián)機手寫“藏文—梵文”部件的樣本;(4)生成聯(lián)機手寫“藏文—梵文”字符集樣本庫。該文為聯(lián)機手寫“藏文—梵文”識別的研究提供字符訓練樣本庫和測試樣本庫,提高了手寫梵音藏文樣本采集效率,解決了樣本數(shù)量及多樣性問題,降低了樣本采集成本,為進一步聯(lián)機手寫梵音藏文識別的研究與系統(tǒng)開發(fā)奠定了基礎。多杰才讓、才智杰的《藏文輔音字母的動詞構成能力分析》(《西北民族大學學報》自然科學版第3期)一文,對藏文動詞詞典中收錄的所有藏語動詞進行了統(tǒng)計,發(fā)現(xiàn)30個藏文字母因其性(即陽性、中性、陰性)不同,在所構成動詞的及物性上也出現(xiàn)明顯區(qū)別。完么扎西、尼瑪扎西的《藏文的信息熵與輸入法鍵盤設計》(《北京大學學報》自然科學版第3期)一文,在研究和分析藏文拼寫文法的基礎上,對計算機藏文快速輸入法鍵盤鍵位布局進行形式化描述,推導計算機藏文鍵盤鍵位布局規(guī)則及方法。安見才讓、拉毛措、孫琦龍的《互聯(lián)網(wǎng)藏文信息輿情分析系統(tǒng)設計》(《微處理機》第2期)一文,介紹了研究互聯(lián)網(wǎng)藏文信息輿情分析的必要性、重點及難點,詳細介紹了藏文輿情分析的關鍵技術,最后說明了藏文輿情分析系統(tǒng)的設計和實現(xiàn)框架。劉匯丹、洪錦玲、諾明花、吳健的《基于大規(guī)模網(wǎng)絡語料的藏文音節(jié)拼寫錯誤統(tǒng)計與分析》(《中文信息學報》第2期)一文,針對從互聯(lián)網(wǎng)獲取的一份包含19萬藏文網(wǎng)頁,總計427萬句、9328萬音節(jié)字的藏文文本語料,按照預定的規(guī)則對其中的藏文音節(jié)拼寫錯誤情況進行了統(tǒng)計與分析。文章還詳細統(tǒng)計了各種不同表現(xiàn)形式的錯誤音節(jié)所占比重,并分析了導致拼寫錯誤的四個主要原因:一是輸入了多余的元音符號;二是音節(jié)點或句尾空格缺失;三是同一字丁/字符存在多種表達形式;四是錯誤地使用了相似字符。艾金勇的《面向信息處理的藏文文本規(guī)范化方法研究》(《西北師范大學學報》自然科學版第2期)一文,針對藏文信息處理的需求,提出了一套層次化、基于規(guī)則的藏文文本規(guī)范化處理方案。首先分析整理了藏文文本中的不規(guī)范文本類型,然后根據(jù)藏文文本中不同類型的不規(guī)范文本特征,分別設計文本規(guī)范化算法,并用程序?qū)崿F(xiàn)了藏文文本的規(guī)范化。最后對該方法進行了實驗測試,測試結果表明該方法能較好地實現(xiàn)藏文文本的規(guī)范化。才讓叁智、關白的《基于規(guī)則的現(xiàn)代藏文音節(jié)字檢錯研究》(《西藏大學學報》自然科學版第1期)一文,通過分析現(xiàn)代藏文音節(jié)字,將藏文音節(jié)字分為規(guī)則音節(jié)字(遵循組件組合規(guī)則的藏文音節(jié)字)和不規(guī)則音節(jié)字(不遵循組件組合規(guī)則的音節(jié)字)兩種。對規(guī)則音節(jié)字采用了音節(jié)字組件組合規(guī)則進行檢錯,對非規(guī)則音節(jié)字采用建立梵源藏文詞典、音譯藏文詞典和本體非規(guī)則音節(jié)字詞典進行檢錯。實驗表明,文章提出的藏文音節(jié)字檢錯方法對報紙類藏文的檢錯率為100%。張云洋的《藏文網(wǎng)頁搜索關鍵技術研究》(《計算機時代》第6期)一文,通過分析藏文網(wǎng)站中藏文字符的編碼特點,對藏文網(wǎng)頁的URL處理技術、限定爬蟲、藏文網(wǎng)頁倒排索引的建立、網(wǎng)頁的檢索和結果排序等進行了詳細闡述,提出了較完整的藏文網(wǎng)頁搜索方法,對于藏文網(wǎng)頁信息的搜索和利用有一定的實用價值。
版權所有 中國藏學研究中心。 保留所有權利。 京ICP備06045333號-1
京公網(wǎng)安備 11010502035580號