国产黄色视频在线观看,麻豆AV无码蜜臀AV色哟,久久av毛片大全,天天综合精品在线观看

計(jì)算語(yǔ)言學(xué)(漢文部分)——藏語(yǔ)文智能信息化專(zhuān)題

發(fā)布時(shí)間:2023-05-23 16:26:33 | 來(lái)源:中國(guó)藏學(xué)研究中心 | 作者: | 責(zé)任編輯:

(四)藏語(yǔ)文智能信息化專(zhuān)題

1.信息的提取

信息的提取,不僅是自然語(yǔ)言處理的重要環(huán)節(jié),同時(shí)信息提取也為構(gòu)建知識(shí)圖譜、問(wèn)答系統(tǒng)等應(yīng)用提供重要支撐。相關(guān)研究有:夏天賜、孫媛《基于聯(lián)合模型的藏文實(shí)體關(guān)系抽取方法研究》(《中文信息學(xué)報(bào)》第12期)一文,采用端到端的BiLSTM框架,提出了基于聯(lián)合模型抽取藏文實(shí)體關(guān)系的方法,實(shí)驗(yàn)結(jié)果表明,該方法較傳統(tǒng)的基于藏文處理方式,如SVM算法和LR算法,準(zhǔn)確率提高了30%~40%。

成晨、于洪志、徐濤等《基于卷積神經(jīng)網(wǎng)絡(luò)的藏文實(shí)體關(guān)系抽取模型研究》(《中國(guó)新通信》第19期)一文,采用基于卷積神經(jīng)網(wǎng)絡(luò)的藏文實(shí)體關(guān)系抽取方法,在原始詞向量的基礎(chǔ)上,通過(guò)關(guān)鍵詞算法獲得類(lèi)別關(guān)鍵詞特征,采用分段最大池化策略,減少傳統(tǒng)最大池化策略的信息丟失。實(shí)驗(yàn)表明,該方法有利于提升藏文實(shí)體關(guān)系抽取結(jié)果。朱利娟、云中華、邊巴旺堆等的《基于極坐標(biāo)變換的脫機(jī)手寫(xiě)藏文字符特征提取方法》(《計(jì)算機(jī)應(yīng)用與軟件》第3期)一文,基于向量特征,將脫機(jī)手寫(xiě)藏文字符圖像進(jìn)行預(yù)處理,求出二值圖像中所有值為1的點(diǎn)對(duì)應(yīng)的極坐標(biāo)后將其進(jìn)行投影變換得到投影向量。使用KNN分類(lèi)器對(duì)30000個(gè)脫機(jī)手寫(xiě)藏文字進(jìn)行實(shí)驗(yàn),其中80%的樣本作為訓(xùn)練數(shù)據(jù),20%的樣本作為測(cè)試數(shù)據(jù),識(shí)別率達(dá)到了96.32%。結(jié)果表明該方法的有效性,計(jì)算簡(jiǎn)單并達(dá)到了較好的識(shí)別效果。

指代消解是文本理解和信息抽取的一項(xiàng)重要任務(wù)。夏吾吉、華卻才讓《基于混合策略的藏文人稱(chēng)代詞指代消解研究》(《計(jì)算機(jī)工程與應(yīng)用》第7期)一文,通過(guò)對(duì)藏文人名、人稱(chēng)代詞的形態(tài)特征和構(gòu)詞規(guī)律的研究,采用基于規(guī)則、最大熵模型以及規(guī)則與最大熵模型相結(jié)合的三種方法實(shí)現(xiàn)了藏文人稱(chēng)代詞的指代消解系統(tǒng)。在包含2306個(gè)待消解對(duì)的藏文句子集上,經(jīng)測(cè)試分別獲得76.02%、86.21%和88.16%的F值。

2.情感標(biāo)注

情感因素對(duì)于自然語(yǔ)言的標(biāo)注與處理很重要。相關(guān)研究有:閆曉東、黃濤《基于情感詞典的藏語(yǔ)文本句子情感分類(lèi)》(《中文信息學(xué)報(bào)》第2期)一文提出了一種基于極性詞典的藏語(yǔ)文本句子情感分析方法。實(shí)驗(yàn)結(jié)果表明,利用該文構(gòu)建的詞典進(jìn)行的傾向性分析效果良好。孫本旺、田芳《藏文情感詞典的構(gòu)建及微博情感計(jì)算研究》(《計(jì)算機(jī)技術(shù)與發(fā)展》第11期)一文,針對(duì)國(guó)內(nèi)尚缺乏系統(tǒng)的藏文情感詞典,提出借助中文情感詞典資源自動(dòng)構(gòu)建藏文情感詞典的方法,并基于構(gòu)建的藏文情感詞典對(duì)藏文微博進(jìn)行情感分析研究。實(shí)驗(yàn)自動(dòng)構(gòu)建了藏文情感詞典,包含基礎(chǔ)情感詞、程度詞、否定詞、轉(zhuǎn)折詞、雙重否定詞、藏文停用詞?;趯?shí)驗(yàn)構(gòu)建的藏文情感詞典,與其他藏文情感詞典相比,有效地提高了藏文微博情感傾向分類(lèi)的準(zhǔn)確率。實(shí)驗(yàn)結(jié)果表明,該詞典達(dá)到了良好的實(shí)用性。張瑞《藏文在線(xiàn)評(píng)論情感分析研究綜述》(《智庫(kù)時(shí)代》第35期)一文,從藏文情感詞典的構(gòu)建、藏文句子情感分析和藏文篇章情感分析三個(gè)層面對(duì)藏文情感分析進(jìn)行研究,發(fā)現(xiàn)基于機(jī)器學(xué)習(xí)的方法是藏文情感分析研究的主流方法,今后應(yīng)加強(qiáng)藏文語(yǔ)料和情感詞典建設(shè)等基礎(chǔ)性工作。

3.算法與文本的分類(lèi)與識(shí)別

運(yùn)用不同的算法對(duì)藏語(yǔ)文進(jìn)行分類(lèi)與識(shí)別,是藏語(yǔ)文信息處理的重要步驟。相關(guān)研究有:群諾、賈宏云《基于Logistic回歸模型的藏文文本分類(lèi)研究與實(shí)現(xiàn)》(《信息與電腦》理論版第5期)一文,基于Logistic回歸模型分類(lèi)器對(duì)藏文文本進(jìn)行分類(lèi),并且對(duì)Logistic算法和Gaussian NB算法進(jìn)行分類(lèi)性能進(jìn)行了比較,結(jié)果顯示Logistic算法具有較好的分類(lèi)效果。賈宏云、群諾等《基于SVM藏文文本分類(lèi)的研究與實(shí)現(xiàn)》(《電子技術(shù)與軟件工程》第9期)一文,利用SVM(支持向量機(jī))技術(shù)藏文文本進(jìn)行分類(lèi),包括文本向量空間模型化,獲取SVM中核函數(shù)的參數(shù)并進(jìn)行常用核函數(shù)分類(lèi)性能對(duì)比,最后與Logistic回歸分類(lèi)器進(jìn)行同等條件下的實(shí)驗(yàn)對(duì)比,驗(yàn)證了支持向量機(jī)模型在藏文文本分類(lèi)中具有良好的分類(lèi)效果。才藏太、索南才讓、才讓加《面向語(yǔ)言信息處理的藏語(yǔ)短語(yǔ)及其分類(lèi)方法研究》(《中文信息學(xué)報(bào)》第9期)一文,根據(jù)藏語(yǔ)信息處理的特點(diǎn)和要求,在藏語(yǔ)短語(yǔ)與句子界線(xiàn)研究的基礎(chǔ)上,按照語(yǔ)法功能和便于計(jì)算機(jī)自動(dòng)分析和處理的原則對(duì)短語(yǔ)進(jìn)行分類(lèi),并規(guī)定了信息處理中藏語(yǔ)短語(yǔ)類(lèi)別單位的標(biāo)記代碼。

拉毛措《基于正則表達(dá)式的藏文屬格的識(shí)別及其檢錯(cuò)算法研究》(《電子技術(shù)與軟件工程》第9期)一文,結(jié)合傳統(tǒng)的格助詞添接規(guī)則和正則表達(dá)式對(duì)屬格助詞進(jìn)行了識(shí)別和檢錯(cuò)的算法研究,提出了藏文屬格助詞的識(shí)別算法,在此基礎(chǔ)上提出了基于正則表達(dá)式和消歧知識(shí)庫(kù)的屬格助詞自動(dòng)檢錯(cuò)算法。周雁、西繞多吉《面向藏語(yǔ)聲紋識(shí)別的語(yǔ)料庫(kù)建設(shè)》(《計(jì)算機(jī)工程與科學(xué)》第11期)一文結(jié)合藏語(yǔ)特點(diǎn)設(shè)計(jì)了一個(gè)面向藏語(yǔ)聲紋識(shí)別的語(yǔ)料庫(kù)。語(yǔ)料庫(kù)的文本語(yǔ)料來(lái)自新聞報(bào)刊、文學(xué)類(lèi)、教育類(lèi)、科技類(lèi)、佛學(xué)類(lèi)、歷史類(lèi)和傳統(tǒng)文化五明類(lèi)等文獻(xiàn)資料,該研究為藏語(yǔ)的聲紋識(shí)別研究奠定了一定的基礎(chǔ)。王德欣、卓嘎、張瑞《基于LBG的藏語(yǔ)字母識(shí)別算法研究》(《電子技術(shù)與軟件工程》第20期)一文,使用MATLABR2014a進(jìn)行算法的仿真,采用VQ的技術(shù)中LBG來(lái)實(shí)現(xiàn)對(duì)藏文字母的識(shí)別。此算法對(duì)藏語(yǔ)30個(gè)字母的語(yǔ)音進(jìn)行了語(yǔ)音預(yù)處理和端點(diǎn)檢測(cè),并提取了MFCC特征參數(shù),該研究為今后藏語(yǔ)語(yǔ)音的識(shí)別有一定的借鑒作用。

文獻(xiàn)的圖像處理是近年來(lái)藏語(yǔ)文信息化的一個(gè)節(jié)點(diǎn)。相關(guān)研究有:劉芳、張?jiān)蒲蟮取痘谙袼剜徲螯c(diǎn)信息的藏文圖像細(xì)化算法研究》(《計(jì)算機(jī)技術(shù)與發(fā)展》第4期)一文,根據(jù)首先對(duì)藏文數(shù)字圖像利用局部自適應(yīng)方法進(jìn)行二值化處理,再采用濾波處理噪聲方法進(jìn)行去噪處理,通過(guò)對(duì)某個(gè)像素點(diǎn)的八個(gè)鄰域點(diǎn)的連接情況,在對(duì)照矩陣中查找對(duì)應(yīng)矩陣項(xiàng)的值判斷該點(diǎn)是否能刪除,該算法在藏文字符數(shù)字圖像細(xì)化實(shí)驗(yàn)中效果良好,正確率高,實(shí)用性強(qiáng)。張西群、馬龍龍等《基于卷積降噪自編碼器的藏文歷史文獻(xiàn)版面分析方法》(《中文信息學(xué)報(bào)》第7期)一文,利用卷積降噪自編碼器提取超像素塊的特征;使用SVM分類(lèi)器對(duì)藏文歷史文獻(xiàn)的超像素塊進(jìn)行分類(lèi)預(yù)測(cè),提取出藏文歷史文獻(xiàn)版面的各個(gè)部分。實(shí)驗(yàn)表明,該方法能夠?qū)Σ匚臍v史文獻(xiàn)的不同版面元素進(jìn)行有效的分離。

珠杰、仁青諾布等《論元角色的藏語(yǔ)語(yǔ)義角色標(biāo)注研究》(《高原科學(xué)研究》第3期)一文探討了藏語(yǔ)語(yǔ)義角色標(biāo)注問(wèn)題,一是按照PropBank標(biāo)注規(guī)范對(duì)藏語(yǔ)簡(jiǎn)單句進(jìn)行了語(yǔ)義角色標(biāo)注;二是依據(jù)藏語(yǔ)動(dòng)詞的語(yǔ)義類(lèi)別,研究了藏文語(yǔ)義角色框架文件建設(shè)的可行性;三是結(jié)合藏語(yǔ)動(dòng)詞分析理論和格語(yǔ)法理論,在PropBank標(biāo)記基礎(chǔ)上研究了藏語(yǔ)特殊語(yǔ)義角色標(biāo)記規(guī)范和標(biāo)記方式。頭旦才讓、尼瑪扎西、完么扎西《藏語(yǔ)依存樹(shù)庫(kù)的構(gòu)建技術(shù)研究》(《高原科學(xué)研究》第3期)一文,建立了規(guī)模為1萬(wàn)句、詞語(yǔ)總數(shù)為119510個(gè)、平均句長(zhǎng)為12個(gè)詞的藏語(yǔ)依存樹(shù)庫(kù),并對(duì)建立的藏語(yǔ)依存樹(shù)庫(kù)進(jìn)行了詞類(lèi)分布統(tǒng)計(jì),該研究為藏語(yǔ)依存樹(shù)庫(kù)的構(gòu)建提供了思路。

洛松求培、安見(jiàn)才讓《藏文網(wǎng)頁(yè)主題爬蟲(chóng)系統(tǒng)的實(shí)現(xiàn)》(《電子技術(shù)與軟件工程》第10期)一文,將貝葉斯分類(lèi)算法用于網(wǎng)頁(yè)文檔分類(lèi),通過(guò)樣本集本訓(xùn)練出教育、政治、宗教三類(lèi)主題分類(lèi)器,再與爬蟲(chóng)技術(shù)結(jié)合從互聯(lián)網(wǎng)上采集與主題相似的網(wǎng)頁(yè)集合,從而滿(mǎn)足了用戶(hù)的個(gè)性化需求,提升了信息檢索的效率。

4.藏語(yǔ)文信息化建設(shè)及文獻(xiàn)回溯

藏語(yǔ)文信息化研究以及發(fā)展歷程梳理,對(duì)于藏語(yǔ)文信息化建設(shè)具有指導(dǎo)意義。相關(guān)研究有:頭旦才讓、尼瑪扎西《改革開(kāi)放以來(lái)西藏藏文信息化發(fā)展綜述》(《西藏研究》第5期)一文,回顧了西藏藏文信息化發(fā)展的歷程和取得的重要成就,指出并預(yù)測(cè)今后西藏藏文信息化的發(fā)展策略與路徑。高定國(guó)《藏文信息處理研究進(jìn)展》(《廣西科學(xué)院學(xué)報(bào)》第1期)一文,簡(jiǎn)要回顧了藏文信息處理中字、詞、句、段、篇的特點(diǎn)、處理方法及取得的典型成果,藏語(yǔ)資源建設(shè)和應(yīng)用研究取得的成果,并對(duì)藏文信息處理未來(lái)的發(fā)展方向進(jìn)行展望。李玖一、于洪志、徐濤《藏文文本聚類(lèi)及其相關(guān)技術(shù)綜述》(《廣西科學(xué)院學(xué)報(bào)》第1期)一文,介紹了藏文文本聚類(lèi)的應(yīng)用背景和相關(guān)概念、藏文文本特點(diǎn)和藏文文本聚類(lèi)的相關(guān)技術(shù),討論了藏文文本建模和聚類(lèi)算法,并對(duì)藏文聚類(lèi)發(fā)展和應(yīng)用進(jìn)行了總結(jié)和展望。尕瑪草《論新時(shí)代藏文信息技術(shù)的應(yīng)用與發(fā)展》(《電腦迷》第9期)一文,主要對(duì)目前國(guó)內(nèi)藏文信息技術(shù)的應(yīng)用與發(fā)展?fàn)顩r進(jìn)行了介紹和評(píng)價(jià),并在此基礎(chǔ)上探討加強(qiáng)藏文信息技術(shù)的應(yīng)用,進(jìn)而有效推動(dòng)藏文信息技術(shù)的發(fā)展,并對(duì)進(jìn)一步加速制定藏文信息標(biāo)準(zhǔn)化提出了自己的見(jiàn)解。

此外,扎西當(dāng)知、多拉等《從六百余篇藏文學(xué)術(shù)論文看藏學(xué)研究40年——以詞匯計(jì)量為視角》(《中國(guó)藏學(xué)》第4期)一文,梳理了國(guó)內(nèi)25種藏文學(xué)術(shù)期刊的642篇藏文學(xué)術(shù)論文,建立語(yǔ)料庫(kù),進(jìn)行分詞、詞性標(biāo)記,并通過(guò)統(tǒng)計(jì)文獻(xiàn)信息、音節(jié)、詞匯等方法,對(duì)藏文學(xué)術(shù)文章的外部信息和詞匯、音節(jié)等內(nèi)容信息進(jìn)行計(jì)量研究,從而觀察40年來(lái)國(guó)內(nèi)藏文學(xué)術(shù)研究的發(fā)展脈絡(luò)、主要研究領(lǐng)域及其發(fā)展趨勢(shì)。肖維霖《基于文獻(xiàn)計(jì)量的藏語(yǔ)自然語(yǔ)言處理研究分析》(《青藏高原論壇》第1期)一文,以中國(guó)知網(wǎng)為數(shù)據(jù)源,分析了所有與藏語(yǔ)自然語(yǔ)言處理相關(guān)的文章,用文獻(xiàn)計(jì)量學(xué)的方法從論文數(shù)量規(guī)律、機(jī)構(gòu)發(fā)展、主題研等,介紹了我國(guó)在藏語(yǔ)自然語(yǔ)言處理方面的研究發(fā)展情況。

版權(quán)所有 中國(guó)藏學(xué)研究中心。 保留所有權(quán)利。 京ICP備06045333號(hào)-1

京公網(wǎng)安備 11010502035580號(hào)

  • 
    
    • <noscript id="yy8y4"><dd id="yy8y4"></dd></noscript>
      <noscript id="yy8y4"><dd id="yy8y4"></dd></noscript>
    •