二、計(jì)算語(yǔ)言學(xué)
計(jì)算語(yǔ)言學(xué)是涉及語(yǔ)言學(xué)、計(jì)算機(jī)科學(xué)和自然語(yǔ)言處理、語(yǔ)言信息化建設(shè)等多門(mén)學(xué)科的綜合性交叉學(xué)科,藏語(yǔ)計(jì)算語(yǔ)言學(xué)主要涉及藏語(yǔ)計(jì)算處理理論,詞法、句法和語(yǔ)義階段重要的分析算法及語(yǔ)料庫(kù)的設(shè)計(jì)與實(shí)踐,運(yùn)用不同算法對(duì)語(yǔ)料進(jìn)行標(biāo)注,分詞是計(jì)算語(yǔ)言學(xué)關(guān)注的重點(diǎn),也是藏文信息化建設(shè)的關(guān)鍵。本文根據(jù)研究的不同側(cè)重將相關(guān)研究成果作一簡(jiǎn)單分類(lèi),鑒于研究?jī)?nèi)容有很多屬交集,若有分類(lèi)不合適的還望專家多提寶貴意見(jiàn)。
(一)分詞、標(biāo)注與識(shí)別
藏文分詞、標(biāo)注和識(shí)別是進(jìn)行各類(lèi)藏文自然語(yǔ)言處理的基礎(chǔ),藏文分詞的結(jié)果直接影響其他自然語(yǔ)言處理任務(wù)的性能。桑杰端珠、才讓加《神經(jīng)網(wǎng)絡(luò)藏文分詞方法研究》(《青??萍肌返?期)一文,通過(guò)對(duì)CNN、BiLSTM、和CRF三種網(wǎng)絡(luò)的有效組合,提出一種藏文分詞的神經(jīng)網(wǎng)絡(luò)構(gòu)架,使分詞模型在測(cè)試數(shù)據(jù)集上的準(zhǔn)確率、召回率和F1值分別達(dá)到了93.4%、94.2%和94.1%,超越了各類(lèi)基準(zhǔn)模型的表現(xiàn)。道吉仁青、安見(jiàn)才讓《藏文終結(jié)詞與離合詞的識(shí)別算法研究》(《信息通信》第4期)一文,用正則表達(dá)式識(shí)別藏語(yǔ)終結(jié)詞與離合詞,提出了一種計(jì)算機(jī)識(shí)別藏文終結(jié)詞與離合詞的算法,并用18232個(gè)句子(包含241272個(gè)藏文字)進(jìn)行了實(shí)驗(yàn),通過(guò)實(shí)驗(yàn)得出藏文終結(jié)詞識(shí)別準(zhǔn)確率達(dá)99.89%,離合詞識(shí)別準(zhǔn)確率達(dá)90.18%。色差甲、貢保才讓、才讓加《基于最大和HMM的藏文新詞識(shí)別對(duì)比研究》(《青海師范大學(xué)學(xué)報(bào)》自然科學(xué)版第1期)一文,首先使用序列標(biāo)注方法來(lái)識(shí)別藏文新詞,對(duì)多種題材共15萬(wàn)藏文句子進(jìn)行統(tǒng)計(jì)建模,最后對(duì)3087句(其中包含12348個(gè)新詞)開(kāi)放語(yǔ)料進(jìn)行測(cè)試,實(shí)驗(yàn)結(jié)果表明將規(guī)則嵌入到最大熵模型比嵌入到HMM模型中的正確率、召回率都高。張日培、姜占才《基于特征的藏文音節(jié)識(shí)別算法》(《電子設(shè)計(jì)工程》第20期)一文,以音節(jié)為基元,選擇并提取音節(jié)中由字符列投影變換組成的特征向量,以此建立音節(jié)特征庫(kù);通過(guò)查表算法對(duì)藏文音節(jié)進(jìn)行識(shí)別。通過(guò)理論分析和算法測(cè)試實(shí)驗(yàn)證明:提取的特征向量與藏文音節(jié)一一對(duì)應(yīng),藏文音節(jié)識(shí)別率達(dá)到100%,且特征的提取過(guò)程簡(jiǎn)便易行。該算法已經(jīng)成功應(yīng)用于藏文的文語(yǔ)轉(zhuǎn)換系統(tǒng)。
扎西拉旦、安見(jiàn)才讓《藏文字結(jié)構(gòu)自動(dòng)識(shí)別與形式化描述研究》(《中國(guó)信息化》第3期),一文通過(guò)研究藏文的構(gòu)件規(guī)則,結(jié)構(gòu)特征,提出了藏文組合規(guī)則和藏文字語(yǔ)法分析相結(jié)合的藏文字自動(dòng)分解算法,進(jìn)而對(duì)藏文字的字母組合進(jìn)行分段處理,簡(jiǎn)化藏文字構(gòu)件復(fù)雜度,研究出各分段部分的藏文字的構(gòu)件規(guī)則,并且按照規(guī)則進(jìn)行藏文字?jǐn)?shù)的統(tǒng)計(jì)。實(shí)驗(yàn)表明,系統(tǒng)能有效地自動(dòng)識(shí)別現(xiàn)代藏文。
洛桑嘎登、仁增多杰《基于知識(shí)反饋的藏文詞性標(biāo)注研究》(《計(jì)算機(jī)時(shí)代》第7期)一文指出,提出的基于知識(shí)反饋的藏文詞性標(biāo)注方法可以顯著提高詞性標(biāo)注效果,準(zhǔn)確率達(dá)到98.75%,該研究已基本滿足日常實(shí)際使用。夏吾吉、華卻才讓《基于有限狀態(tài)自動(dòng)機(jī)阿拉伯?dāng)?shù)字與藏文數(shù)詞自動(dòng)翻譯》(《計(jì)算機(jī)工程與科學(xué)》第3期)一文,分析并規(guī)定了阿拉伯?dāng)?shù)字和藏文數(shù)詞的結(jié)構(gòu)成分,分析藏文數(shù)詞的構(gòu)詞規(guī)律,采用最大匹配的原則實(shí)現(xiàn)了翻譯復(fù)雜數(shù)詞自動(dòng)翻譯系統(tǒng)。實(shí)驗(yàn)F值達(dá)到了98.02%。
版權(quán)所有 中國(guó)藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號(hào)-1
京公網(wǎng)安備 11010502035580號(hào)