国家863主题办
云南省民族事务委员会
甘肃省农业厅
四川省科委
四川省中泽公司
四川省凉山州农委
 
 

1、汉语分词工具Chiru和IimSeg分词系统
   本实验室是独立开发,采用了基于局部歧义词网格的分词算法和Trie索引树的词典结构。

    IimSeg分词系统结合CRF工具包,开发了前处理模块和后处理模块。前处理模块是把分词语料转换成CRF工具包要求的输入文件格式,并使用了4标注集(B,M,E,S)对每个汉字进行标注。该模块主要是针对UTF8编码方式的语料文件进行处理,若用户使用的其他编码方式,只需对该模块中的程序源码进行简单修改即可。后处理模块是还原CRF工具包标注后的分词语料,输出分词结果。
    CRF工具包是基于条件随机场模型的序列标注工具。基于字标注的分词方法是将分词知识的学习转换为汉字序列标注的过程,可采用该工具包对每个汉字进行字位的标注。由于每个字在构造一个特定词语时都占据一个构词位置,即字位,因此可以将分词过程看成字位信息的学习过程。把分词过程视为字标注问题的一个重要优势是,其能够平衡地看待词表词和未登录词的识别问题。CRF模型是目前最先进的序列标注模型之一,它的使用使基于字标注的分词方法有了很大的提高。

2、汉语依存句法分析器MSTparser
    MSTparser的主要思想是将依存分析形式化为寻找有向图的最大生成树。
3、翻译模型训练工具_linux
  (1)词语对齐工具mkcls,plain2snt.out,GIZA++工具,可在http://www.fjoch.com/下载 。
   本实验室是独立开发了如下训练工具:
  (2)词语对齐提炼工具WordAlignment;
  (3)词典概率评分工具(LexicalScore);
  (4)短语抽取工具(PhraseExtract);
  (5)短语评分工具(PhraseScore)。
  (6)phrase-table过滤器 。本过滤器利用Perl语言及NSP开源工具包实现,其目标是对于从双语平行语料库中获得的短语翻译模型,利用统计方法重新进行学习训练,对于原始的短语翻译模型进行过滤,得到规模更小更精确的翻译模型。

4、语言模型训练工具_linux
   用SRILM训练工具来训练三元的语言模型。在www.speech.sri.com/projects/srilm/下载到。
5、解码器PanGu
   本实验室是独立开发,通过加载短语翻译模型、目标语言模型对输入文本的源语言句子进行翻译。

6、拉丁民文——传统民文转写系统
 (1)拉丁蒙文<->传统蒙文。拉丁蒙文采用内蒙古古大学申请国际标准的拉丁转写码,传统蒙文采用Unicode国际标准编码。
 (2)拉丁藏文<->传统藏文。拉丁藏文采用中央民院转写规则,传统藏文采用Unicode国际标准编码。分别开发了传统藏文到拉丁藏文的转写程序以及传统藏文到拉丁藏文的转写程序。
 (3)拉丁彝文->传统彝文。拉丁彝文采用中央民院转写规则,传统彝文采用Unicode国际标准编码。
 (4)拉丁维文->传统维文。拉丁维文采用中央民院转写规则,传统维文采用Unicode国际标准编码。
需要以上资源的,请填写工具下载申请表发信给aes@iim.ac.cn,我们会把工具发送到您填写Email信箱。请在申请表的备注栏中填写您的用途,有意见和建议也请填入备注栏。