基于WordNet的中泰文跨语言文本相似度计算[泰语论文]

资料分类免费泰语论文 责任编辑:Anchali更新时间:2017-06-21
提示:本资料为网络收集免费论文,存在不完整性。建议下载本站其它完整的收费论文。使用可通过查重系统的论文,才是您毕业的保障。

1引言文本相似度在语言学、心理学和信息理论等领域被广泛的讨论,文本相似计算旨在比较两个文本之间的相关程度。近年来,基于同一种语言的文本相似度计算措施[1-3]日趋成熟,代表算法模型有布尔模型、向量空间模型、概率模型等。但是,关于跨语言文本相似度的探讨则很少,跨语言文本相似度是指量化两个不同语言文本之间的相似性,并使量化的结果尽可能符合人工判断的结果。由于汉语和泰语在语法上存在异同,我们无法用现有的计算同一语言文本相似度的措施来计算汉泰双语文本的相似度。目前,对于跨语言文本相似度计算主要有以下几种措施:1)基于机器翻译的措施[4]。该措施将源语言文本翻译成目标语言文本,在目标语言空间计算相似度,该措施依赖机器翻译的质量,并很难扩展到多种语言;2)基于统计翻译模型的措施[5]。该措施需要两种语言之间的翻译概念词典,但是翻译概念词典需要建立大规模对齐语料库,代价很大,并很难扩展到多种语言;3)基于平行语料的措施[6],该措施以两种语言的平行语料库为基础来计算相似度,该措施的准确性依赖于平行语料库的规模和质量。虽然上述措施取得了不错的效果,但是存在扩展性不足、工......(论文页数是:6页)      

泰语论文范文泰语毕业论文
免费论文题目: