汉语分析
语料处理
语言模型
翻译模型
解码算法
 
内蒙古大学
西藏民族学院
新疆师范大学
中科院计算技术研究所
中科院自动化研究所
中科院软件研究所
 
 
翻译模型

基于短语的翻译模型
翻译模型用于反映源语言和目标语言之间的对应关系。基于短语的统计机器翻译的最大特点是其翻译模型为短语级的,这里的短语并非是语言学意义上的短语,而是指连续的语言片段。其典型的翻译过程是将输入的句子划分成短语,然后将每一个短语翻译成相应的译文短语,在翻译的过程中可以对译文的短语序列重新排序。
phrase-table过滤
翻译模型phrase-table的生成要经历词对齐,短语对齐,短语评分等不同的阶段,最终生成的翻译模型必含有一些不正确的短语翻译对,这里称之为“噪音”。因此,如何从已生成的翻译模型中去除这些噪音,是很有必要研究的,本过滤器的设计目标就是利用多种不同的统计方法对翻译模型进行过滤,对于统计机器翻译是非常有意义的。
基于统计方法的短语翻译模型过滤器是语言无关的过滤系统,只要具有双语对齐平行语料库就可以利用不同的统计方法进行训练学习各种参数,即使对于像中文与蒙文这样的句法结构相差比较大的语言对也是一样的。训练参数的获取和调整并不依赖具体的语言学知识。过滤器旨在为用户提供不同的统计值需求,现在可对翻译短语对计算10多种统计值并排名。这样,用户可以根据自己的需求进行实验,不但可以选择并设置灵活的阈值,而且对于结果的评判亦可以从多个角度进行,并且,本过滤器还可以自由灵活的添加新的统计值模块,实用价值较高。
过滤器主要分为三个模块:计数模块,统计模块及过滤模块。计数模块主要是统计语料库中包含源短语s的句子数c(s),包含目标短语t的句子数c(t)及同时包含s,t的句子数c(s,t); 统计模块是在计数模块的输出结果的基础上计算一些统计值,其输出结果按统计值的大小进行排序;过滤模块是在第二模块输出的结果上,给定一些阈值对原翻译模型进行过滤,其评价指标为机器翻译自动评测NIST,BLEU。
本过滤器的主要功能:对于从双语平行语料库中获得的短语翻译模型,利用统计方法重新进行学习训练,对于原始的短语翻译模型进行过滤,得到规模更小更精确的翻译模型。
使用说明:
(1)语料库合并工具: catcorpus1.0.pl
输入命令:./catcorpus1.0.pl srccorpus tgtcorpus src2tgt
或:perl catcorpus1.0.pl srccorpus tgtcorpus src2tgt
其中srccorpus为源语言句子训练语料,为输入文件;tgtcorpus为对应的目标语言训练句子,为输入文件;src2tgt为合并后的双语对齐语料库,为输出文件;
(2)翻译模型短语计数工具: phrase-count1.0.pl
输入命令:./phrase-count1.0.pl stcorpus phrasetable processnumber count-result
或:perl phrase-count1.0.pl stcorpus phrasetable processnumber count-result
其中stcorpus为双语句子合并语料,语料库合并工具的输出结果,输入文件;phrasetable为基于短语的统计机器翻译系统训练生成的翻译模型,输入文件;processnumber为用户自己指定的子线程数,这样在多处理器上训练可以充分利用多处理器;count-result为翻译模型中的源短语和目标短语在语料库中的计数结果,为输出文件;
(3) 翻译模型短语统计工具:statistic1.0.pl
注:此工具修改并利用了开源工具的NSP的statistic.pl的模块,主要借用NSP的多组统计值计算模块。
输入命令:./statistic1.0.pl statistic-method statistic-result count-result
或:perl statistic1.0.pl statistic-method statistic-result count-result
其中statistic-method为用户指定的数学统计方法,如Fisher准确检验,似然比,互信息等,以模块文件提供;statistic-result为统计方法在计数模块输出文件基础上的计算结果,其结果按值排序,为输出文件;count-result为翻译模型短语计数工具的输出结果,既源短语和目标短语在语料库中的计数结果,为输入文件。
(4)翻译模型短语过滤工具:filter1.0.pl
输入命令:./filter1.0.pl old-phrase-table statistic-result new-phrase-table filter-number
或:perl filter1.0.pl old-phrase-table statistic-result new-phrase-table filter-number
其中old-phrase-table为基于短语的统计机器翻译框架下训练的翻译模型,为输入文件;statistic-result为统计方法在计数模块输出文件基础上的计算结果,为输入文件;new-phrase-table为根据阈值过滤后的翻译模型,为输出文件;filter-number 为用户指定的过滤阈值,凡statistic-result中计算结果小于阈值的短语将被过滤。
引入语言信息的翻译模型
(1)汉语词与蒙古语词干对齐与词语评分方法:以汉语分词、标注语料库、汉语依存树库和蒙古语熟语料库为训练语料库,利用Giza++词语对齐工具,抽取汉语词与蒙古语词干的交集,并在交集基础上,扩展邻居集,再求遗失集,最后得到汉蒙双向词语对齐提炼结果。采用最大似然估计法,计算词到词干的翻译概率,进行评分。
(2)短语对抽取和短语评分方法:对Och短语翻译模型中连续短语抽取进行改进,扩展抽取不同信息单位的翻译选项对。采用最大似然法进行短语评分,构造回退模型。短语评分包括:正向短语翻译评分、反向短语翻译评分、正向词典概率评分、反向词典概率评分。
(3)翻译模型的组合与优化方法:利用对数选项池(Logarithmic Opinion Pools, LOP)的方法实现多组翻译模型的组合与优化。其基本的思想是:先关注于测度空间某特定子集的一种概率模型称为专家模型(export model),通过权值将各种子集分布综合起来形成整个测度空间的概率模型。
训练样本时,先对各个专家模型进行无监督训练,然后以训练好的专家模型为基础,训练权值W,对数最大拟合训练样本的实例空间。这种非参数(parameter-free)训练方法,其专家模型训练不需要整个空间分布参数和 的先验概率,因而可以避免对超参数的估计过程。