汉语分析

语料处理

语言模型

翻译模型
解码算法
 
内蒙古大学
西藏民族学院
新疆师范大学
中科院计算技术研究所
中科院自动化研究所
中科院软件研究所
 
 
语言模型

    语言模型训练只需要一个目标语言文本文件,使用该文件的时候需要首先对该文本文件进行分词。然后将分好词的目标语言文本文件,交给语言模型训练模块进行训练,整个训练过程非常快,训练速度平均为2MB/S。训练开始的时候可以选择各种不同的平滑算法,这样训练结束后,就可以生成不同的语言模型了;同时训练开始时还可选择生成的目标语言模型的文件格式,有两种格式可供选择,一种是文本文件格式,一种是二进制文件格式。文本文件的好处是比较直观;二进制文件的好处是存储空间少,数据保密性好。但无论是哪种文件格式,生成的目标语言模型文件,内部的数据一律以ARPA格式组织。