汉语分析
语料处理
语言模型
翻译模型
解码算法
 
内蒙古大学
西藏民族学院
新疆师范大学
中科院计算技术研究所
中科院自动化研究所
中科院软件研究所
 
 
汉语分析

汉语分词系统

(1)基于局部歧义词网格的分词算法
本课题组研究开发的Chiru汉语分词系统,采用了基于双数组Trie的词典结构,切词算法采用局部歧义词网格算法,搜索算法是基于斐波那契堆的最短路径算法。
①基于双数组Trie的词典结构
双数组Trie结构由日本研究学者JUN-ICHI AOE于1989年提出。该结构有效结合了数字搜索树(Digital Search Tree)检索时间高效的特点和链式表示的Trie空间结构紧凑的特点。在双数组Trie中所有键中包含的字符之间的联系都是通过简单的数学加法运算来表示,不仅提高了检索速度,而且省去了链式表示的结构中大量使用的指针,节省了存储空间。
②针对双数组的汉字转码方案
任何类型的汉字都是由多个字节构成的,不管是GB2312,还是Unicode等其他编码方案(GB2312中每个汉字由两个字节构成,Unicode中每个汉字由四个字节构成),因此可对汉字的每个字节编码,如对于GB2312编码来说,每个汉字包含两个字节,第一个字节的编码范围为176~247,而第二字节的编码范围为161~254。我们可以选择汉字的第二个字节(编码范围为161~254)作为基准编码范围。做一个编码映射,将161~254的编码空间映射到2~95的编码范围内,编号为1的编码留给字符‘#’。因此编码范围降低为1~95,编码空间的减小可以减少数据稀疏。
③基于局部歧义词网格的快速分词算法
基于局部歧义词网格的分词算法过滤掉句子中的碎词,利用覆盖歧义词典训练算法,训练的覆盖歧义词典能够将处理覆盖歧义的操作简化为对覆盖歧义词典的查询,大大减少了求解最优路径的结点数,只对判断为有歧义的局部路径进行最优路径的选择。
(2)基于CRF的汉语分词算法
本课题研究开发的IimSeg分词系统,采用了基于条件随机场模型的字标注方法,分词模型解码算法采用维特比算法。
①字标注分词方法
长期以来,中文分词研究界一直把未登录词和分词歧义并列为影响分词精度的两大因素。而未登录词带来的精度失落比分词歧义平均大十倍以上,因此有效的未登录词识别技术将会全面提升自动分词系统的性能指标。字标注的分词方法正是适应这样的需求应运而生的。基于字标注的分词方法是将分词知识的学习转换为汉字序列标注的过程。由于每个字在构造一个特定词语时都占据一个构词位置,即字位,因此可以将分词过程看成字位信息的学习过程。把分词过程视为字标注问题的一个重要优势是,其能够平衡地看待词表词和未登录词的识别问题。
②条件随机场模型
条件随机场(CRFs)模型是无向图模型的一种形式,在给定将要标记的观测序列的情况下,无向图模型可以被用来在标记序列L定义一个联合概率分布。假设X,Y分别表示需要标记的观察序列和它对应的标记序列的联合分布随机变量,条件随机场(X,Y)就是一个以观测序列X为全局条件的无向图模型。条件随机场是目前最先进的序列标注模型之一,它的使用使基于字标注的分词方法有了很大的提高。
③维特比解码算法
维特比算法是一种动态编程的方法,基本思想是把问题分解成很多子问题,先解决最基本的子问题,在逐步外推寻找更大的子问题的最优解,在有限步骤之后达到整个问题的最优解。通过维特比算法模型参数能够有效地计算出一给定词序列最可能产生的标注序列。

 2. 汉语依存句法分析
依存语法(Dependence Grammar)又称从属关系语法,最早是法国语言学家特尼耶尔(L. Tesniere, 1893-1954)提出的。他认为一切结构句法现象可以概括为关联、组合和转位三大核心。动词是句子的中心,它支配着别的成分,而它本身则不受其它任何成分支配。依存语法是一种充分利用句子中词汇信息的语法体系,它的核心思想是,认为句子中不同的成分(词)之间是不平等的,存在着支配与被支配,从属与被从属的关系。
本课题组主要研究句法分析器的设计以及机器翻译中句法信息的融合。
(1)依存句法分析器MSTparser
最大生成树分析解码算法:
依存结构之所以能够代替带有丰富词汇信息的短语结构是因为它能更有效地分析出在应用中十分重要的谓词信息。MSTparser的主要思想是将依存分析形式化为寻找有向图的最大生成树。其主要的过程是:从每一个顶点贪婪地选择最大评分的边,并加到选择项中,如果所有顶点都加入了并形成了树,则为最大生成树,否则说明有环存在。先识别环,将其看为一个节点,重新计算进环的边权值和出环的边权值。有环存在的紧缩形的树,其最大生成树也就是原图的最大生成树。因此递归调用算法就可得到原图的最大生成树。
训练算法
采用联机最大差学习算法(MIRA)更新权值,每次更新的时候让权值的变化最小,并使得正确分类的实例与错误分类的损失值尽量大。其中,损失值为错误依存树与正确依存树的差值损失,这个损失指的是具有错误父节点的词的个数,最大的损失是句子的长度。。如果树的错误越多,那么最终它的得分值与正确树的得分值差距越大。
(2)依存特征选取
Lucien Tensiére: “可以把动词比作一个带钩的原子,动词用这些钩子来吸引与其数量相同的行动元作为自己的从属成分。一个动词所具有的钩子的数量,即动词所能支配的行动元的数目,就构成了我们所说的动词的配价。
Helbig and Schenkel: 价指的是动词及受其支配成分之间的抽象关系; 句法配价是指动词在其周围开辟一定数量的空位,并要求用必有或可选共演成分填补的能力。
冯志伟,刘海涛:配价是词的一种根本属性,广义的配价是指词具有的一种和其他词结合的能力,这种能力是一种潜在的能力,它在语句中的实现受句法、语义和语用等因素的限制。
结合力分为:向心(输入,父节点) 和离心(输出,子节点) 两类,向心力表示词受别的词支配的能力,离心力则是它支配其他词的能力。
根据配价理论选取的特征有:
a)兄弟结点是否有相同的词性标记:
词性+兄弟结点词性+兄弟结点词个数。
依存标记+兄弟结点标记+兄弟结点个数。
依存标记+兄弟结点标记+词性+兄弟结点词性+兄弟结点个数
依存标记+兄弟结点标记+词性
兄弟结点标记+词性+兄弟结点词性
b)对于汉语动词,最左边子词和最右边子的词,往往是主语和宾语可以提取的有:
最左子词性+动词+最右子词性
左子词+动词+右子词性
左子词性+动词+右子词
动词父结点词词性+动词
(3)机器翻译中句法信息的融合
传统的句法分析把句子分为主语、谓语、宾语等语法结构,而依存语法首先关注的是句子的动词,然后再探寻句子中其他成分与动词的关系。在经过分词和词性标注的双语语料库基础上,在源语言端将句法信息以标注形式记在每个词上;采用factored方法将源语言句法信息和目标语言形态信息引入翻译模型构造中。
汉语句法信息标注
词汇化句法信息思想本文提到的汉语句法信息作为标注的基本方法是将汉语依存句法树中依存关系到句子的每个词语上,采取的基本原则是词汇化的句法信息能够唯一地恢复为原来依存树。因此,对于每个词汇化的句子,存在唯一的句法树与之对应。词汇化结果可以用三元组表示:(W,Dep,Rel),其中W表示表面词形,Dep表示句子与词W的父结点词或者该词的序号,Rel表示两个词的依存关系分类。例如:善良的人民细心地照顾这只弱小的猫。其依存树如图所示。部分词汇化结果如下:
(人民,照顾,SBV),(地,照顾,ADV),(猫,照顾,VOB),(细心,地,DI),(弱小,的,DE)。
这种标注方式使每个词带有丰富的句法信息,都带有在本句话中承担的依存关系。例如,与单词“猫”与直接相连的是“照顾”,它们之间的关系是“VOB” 一个带有句法标注的句子包含了句法分析的大部分信息,因为它是词汇化的, 所以很容易用到factor短语系统中。
将句法信息引入短语模型,为短语模型中加入丰富的句法信息,在句法与短语之间找到平衡点,来实现两者的优点。