汉语分析
语料处理
语言模型
翻译模型
解码算法
 
 
内蒙古大学
西藏民族学院
新疆师范大学
中科院计算技术研究所
中科院自动化研究所
中科院软件研究所
 
 
语料处理

 语料规模
 

汉民语料

句子/词数(条)

汉蒙语料

38000(句子)+220,000(词条)+ 3282条(句子)

汉维语料

504,548(词条)

汉彝语料

41,980(词条)

汉藏语料

2000(句子)+3000(词条)

农业词典(汉)

30000(词条)

农业专业词典(蒙///彝)

3000

农业翻译模板(汉////彝)

874条(短语)


语料编码处理
分析我国少数民族语言文字特征,并结合已公布的少数民族字符国际编码标准等,建立统一规范和基于XML规则的知识结构,采用统一的国际标准UNICODE编码。