嘉宾简介
薛念文,美国布兰戴斯大学计算机系及语言学项目副教授,《美国计算机学会亚洲汇刊和低资源语言信息处理》主编,国际计算语言学协会中文处理特别兴趣组(SIGHAN)副主席/主席候选人。曾任科罗拉多大学波尔得分校语言学系助理教授,宾夕法尼亚大学大学认知科学学院和计算机与信息科学系博士后。
主要研究领域为计算机语言学及自然语言处理,致力于开发语法、语义、时间和语篇信息标注语料库。同时主持汉语树库、汉语命题树库和汉语语篇树库的建设。在中文分词、句法和语义解析、共指关系、话语分析、机器翻译以及生物医学自然语言处理领域发表论文100余篇。
发言题目:
From Universal Dependency to Uniform Meaning Representation
发言译文
今天我要讲的是我们已经完成的项目,我们做的是非常有趣的,比如多语言和跨语言的处理,在“一带一路”的环境下我们认为确实非常重要的一个工作,所以我们来看一下最近的一些工作,也就是开发多语言资源处理以及标准,其中一个就是普遍依赖性项目,我们正在做相关的研究。普遍依赖性,是指句子都有依赖性的结构,比如说这里有三个句子,这三个句子可以看到一些特征,有一个特征是结构性,比如连词、介词,这种词是有关系的。而且结构上是有差异的,他们实现相关的功能的构句是不一样的,所以很难去比较语言处理,如果每个语言之间的模型是不同的,很难去作对比的。
什么是普遍依赖性呢?我们管这个叫做实词的优先度的问题,比如说介词方面,他们是有相关的关联度,在介词后面出现实词,实词有优先级。从语言性的角度来有些奇怪,但是从其他的角度来看,人们关心的单词之间的关系。如果想匹配两句子的话,只要匹配实词就可以了。这是我们做一个程序所需要的东西,所以这是基本的理论。虚词并没有太多的表意功能,这是我们的一个假设。所以这种取决性的关系有时候可以在结构上帮助我们做这样的翻译。比如说被动句的主语或者无主语句怎么进行对等。举个例子,“他用筷子吃面条”,过去人们总是觉得“用”要移到“筷子”之前,他们之间是有这种关联度的,但是如果你用我们实词关联,其实不需要在意他们的顺序。其他的句子也有类似的情况,比如“重力”。其实这个处理器是来自于斯坦福依赖度的一个标准,而谷歌他们开发了这样一个POS tagset的机制,在2013年把两个系统结合在了一起,之后的研究者也做了相同的事情,做的比较成功的人们已经普遍的接受了这种普遍依赖度的概念。这些数据都是免费的,政府和企业方面的资料是不一样的,有超过七千个下载,现在已经是分享的数据了。
普遍依赖性成功的背后是什么呢?很重要的一个原因是我们需要有一个多元处理和跨元处理的统一标准,这样普遍依赖性的原则会受到极大的欢迎。通过这种方式对语言资源开发者来讲有了共同尊崇的标准,有的时候需要有一些专长去开发出自己的标准。所以现在我们可以采用现有的通用标准。另外,这也可以在跨语言进行研究结果的对比,在一些语言里进行依赖性分析的时候,有的语言简单一些,有的语言复杂一些,可以进行跨语言的比较。刚才之前说到了马来语和印尼语,中间有了共同的标准,你要去进行跨语言转换更容易一些。另外它也会推动比较语言学研究,这也解释了为什么使用普遍依赖性现在这么成功。
当然我们对于语意表征有不同的观点。从意义的角度来讲,我们有着不同的框架,比如最低连续性的语意学MRS,把它放在传统的AI框架里面去。另外,还有话语表征理论,还有布拉格语意TreeBank框架。还有抽象语意表征,所以现在我们要建立起一个共同语意的表征。下面来看一下不同的框架是怎么表征意义的。
这里有一个例子,“A similar technique is almost impossible to apply to other crops。”这是重复语意学,这不是原始的图片,我把它进行了调整,这样方便进行比较。你可以看到有很多不同指向的箭头,这里有着不同的结构,背后有不同的规则,比如说有修饰语,冠词等等。另外,还有一些点,它并没有通过箭头连接。另外,还有板块语法表征。这是另外一个不同的结构,同样的可以看到有一些孤立的点,这个时候可以看到只有一个根,和之前的框架是不一样的。我们还有抽象意义表征框架,我们有一个单一的意义根,它是单向的。
下面我们再来说一下抽象意义表征。有一些概念,这些概念可以是一个英语单词,可以是意义确定的谓语,也可以是一些数量或者是逻辑连接词或者是其他类型的词。另外,通过抽象意义表征还可以表示关系,比如说修饰语,可以是意义群或者是表示意义关系的,比如它表示年龄、授意者、原因、比较、条件等等,这里面我们可以进行几百个标注。我们把现有的意义表征的框架来做一个归纳的话,我们可以看到它是基于逻辑还是基于词汇的。另外一个维度,它是组合性的还是非组合性的。之前我们可以看到PDT-TG主要关注的是成份,所以主要从词汇的角度来看。另外的框架,它主要的目的是支持逻辑和意义,比如说更多关注的是像这里的框架(图)。这里的最低重复语意,这里的语意逻辑是最重要的。
所以要是我们去建立一个普遍的意义表征框架,我们该怎么做?我们知道既要照顾到词汇,也要照顾到逻辑,同样还要照顾到形态学。我们要有一个支持性的词汇参考,有时候不同的句子有相同的意思,基本结构应该是一样的,比如说这里的相同的一个结构,相同的一个技术在其他的作物上很难进行应用。Suppoorting logical inference,还有不同句子结构表达的意思是一样的。这里中间需要有一个范围,包括数量词,还包括否定词,这样的话能够给你一个大致的框架。
另外一个原则,跨语言的有效性。也就是说相同的意义应该用相同的方式进行表征。比如在英语里面,我们一个迭代的区别。比如一个是flash,一个是flashing。所以一个是单词动作,一个是远处动作。单词动作是我们有这样的“星号”,比如灯在远处闪了,如果是重复动作,一闪一闪的。我们可以有完成时和非完成时,用不同的动作的次数,我们要用相同的意义表征,我们需要有相同的架构。这里的特点就叫作迭代,这里显示的是灯在远处一闪一闪的。在西班牙语里是相同的结构。
基本上也是相同的结构。还有一些其他的语言。我们可以建立起一个不同语言通用的意义表征手段,最终即便语言差别很大,但是我们可以找到一个相同的通用的语言意义表征框架。比如在土耳其里面只有一个单词,一个单词可以就表示一整句话。
结论是什么?人们对于自然语言处理的兴趣越来越浓厚,这是从普遍依存项目中可以证实,另外现在我们还到了处理通用语言意义表征框架的时代了,谢谢大家!