汉语分析
语料处理
语言模型
翻译模型
解码算法
 
内蒙古大学
西藏民族学院
新疆师范大学
中科院计算技术研究所
中科院自动化研究所
中科院软件研究所
 
 
解码系统


 
在统计机器翻译中解码器的作用就是根据学习到的模型信息寻找源语言句子中最可能的目标译文。 PanGu(盘古)是一种基于短语统计机器翻译的柱搜索解码器。解码器中加入的多个特征模型,包括基本的短语翻译模型、目标语言模型以及附加的扭曲模型、词语惩罚模型、短语惩罚模型。
    柱搜索(Beam-Search)算法
柱搜索算法从没有翻译的状态(翻译假设)开始进行扩展,每次扩展从源语言句子中找出当前假设可以翻译的短语进行翻译,生成新的翻译假设。在对新的假设的评分后,根据新假设所翻译的源语言单词的个数放入其相应的假设栈中,根据假设评分对选取较好的评分进行下一步扩展,直到扩展到最后一个假设栈所有假设扩展完成没有未翻译的短语为止。
cube pruning和cube growing算法
cube pruning算法最先由Chiang在其层次短语机器翻译系统中提出,是介于解码时语言模型完全融合与语言模型重评分这两种方法之间的一种算法。cube pruning用语言模型重评分解码树中每个子节点的k个最佳翻译, 与将语言模型融入到解码中的柱搜完索算法相比能在不降低翻译质量的条件下非常显著地提高翻译速度(约4~10倍)。
cube growing算法与cube pruning算法极其相似,是cube pruning的被动版。cube growing只扩展可以组成根节点最佳假设的子节点的假设,而不是像cube pruning那样总是扩展每个节点的前k个最佳假设。因此cube growing算法的速度比cube growing更快。