English | 中文

English | 中文

国际会议专栏:黄伟道教授特邀报告 | “一带一路”语言资源与智能国际学术研讨会
作者:
2017年07月27日

嘉宾简介

Professor Hwee Tou Ng is Provost's Chair Professor of Computer Science at the National University of Singapore(NUS)and a Senior Faculty Member at the NUS Graduate School for Integrative Sciences and Engineering.He received a PhD in Computer Science from the University of Texas at Austin,USA.His research focuses on natural language processing and information retrieval.He is a Fellow of the Association for Computational Linguistics(ACL).

He has published papers in premier journals and conferences,including Computational Linguistics,Journal of Artificial Intelligence Research(JAIR),ACM Transactions on Information Systems(TOIS),ACL,NAACL,EMNLP,SIGIR,AAAI,and IJCAI.His papers received the Best Paper Award at EMNLP 2011 and SIGIR 1997.He is the book review editor of Computational Linguistics,an action editor of the Transactions of the Association for Computational Linguistics(TACL),an editorial board member of Natural Language Engineering,and a steering committee member of ACL SIGNLL.

He has also served as the Editor-in-Chief of ACM Transactions on Asian Language Information Processing(TALIP)(May 2007−May 2013)and an editorial board member of Computational Linguistics(2004−2006)and Journal of Artificial Intelligence Research(JAIR)(Sep 2008−Aug 2011).He was an elected member of the ACL executive committee(2008−2010)and a former secretary of ACL SIGNLL.He was program co-chair of EMNLP 2008,ACL 2005,and CoNLL 2004 conferences,and has served as area chair of ACL,NAACL,EACL,EMNLP,SIGIR,AAAI,and IJCAI conferences and as session chair and program committee member of many past conferences including ACL,EMNLP,SIGIR,AAAI,and IJCAI.

At NUS,he currently serves as Deputy Director of Temasek Defence Systems Institute(TDSI),and he was formerly Program Co-Chair of the Singapore-MIT Alliance(SMA)Computer Science Program,and Curriculum Chair and Vice Dean(Research)of the School of Computing.

发言题目:Machine Translation for Resource-Poor Languages

发言译文

SMT使用电脑自动把一个文字从自然语言翻译到另外一个语言之中,SMT统计机器翻译是通过大的基于数据对齐的双语语料库,还有基于人类的译文进行统计的数据的机器翻译。这是一个很好的方式。但是有一个问题,我们需要搜集大量的高质量的人工翻译的文本,当然这是很费钱的,而且去搜集这样高质量大量的人类文本是非常困难的。同时,因为在欧洲,我们有语言资源协会,还有其他机构建立的相关语料库。但是大部分的语言资源都是比较匮乏的,在这个方面我们没有足够的语料库。对于这些资源并不丰富的语言来说,他们是有关系的,他们的词汇很多方面是重复的,有很多的共同点。所以给我们带来一个很好的机会来去改善资源贫乏的语言,利用好与之相关的资源丰富的语言语料库。这是我今天下午要谈的内容。

下面给大家举一个例子,什么叫做资源丰富和资源贫乏的语言。很多语言是在“一带一路”沿线国家的语言,在欧洲我们有瑞典、挪威语、保加利亚语和马其顿语。相对于马其顿语来讲保加利亚语资源更丰富。在欧洲以外的地方我们还有其他的一些语言,这里也显示出来了。在这方面我们关注的主要是马来、印尼语,是当地的1.8亿的南亚人口所讲的一门语言。这里说的是马来语和印度尼西亚语,我们发现50%的词是重复的,有一些差别但是可以说是重复的。一会儿会给大家展示这个差异。想建造一个机器翻译的话,你可以用英语做一个中介语,实现他们的翻译,虽然精确度可能会出现问题。我们用的方法就是下面这个方法,这个方法是比较通用的。

首先,把一个高资源和一个低资源的语言进行一个连接和翻译,我们有相对大的语料库存在于高资源和低资源的语言之间,所以我们就可以从高资源的语言向低资源的语言进行一个自动翻译。然后我们再进行另外的一个低资源语言到之前那个高资源语言之间的匹配。所以我们可以尽量多的利用高资源语言的资源,去实现两个低资源语言之间的翻译,我们就想使用这样的技术,用这种适应性技术,比如说编码解码的技术,从一个低资源语言利用高资源语言做一个中介,做一个目标语的翻译,这个实践是这样的。

从英语翻为印尼语是我们的目的,印尼语是一个低资源语,我们希望开发高资源语言的资源,也就是马来语,我们有很多的马来语和英语之间的匹配,所以我们怎么做呢?进行适应。也就是让马来语的词汇和印尼语之间产生这样的一个适应,做一个句法方面的适应工作。比如说我们准备借由英语做一个到马来语之间句法上的转换,用这种办法就可以实现印尼语和英语之间的结合。需要注意的是我们的词汇库里面并没有一个印尼语到马来语之间的平行文本,也就是平行语言的语料库,我们的方法也不需要这一点,用的是句法的方式,借由第三语的词义上对等实现翻译的。

比如说有一个词是英语的第三个词,这个是从马来语的第三个词翻过来的,然后它就可以被翻译成印尼语的第三个单词,就可以实现从马来语的第三个单词到印尼语言的第三个词的翻译。这是一种可能性的对等,这就是我们的叫做Paraphrases的过程。我们做的事情就是借由英语,借了印尼语和马来语之间的翻译,所以这时候英语相当于作为一个轴实现了转换。

现在我们马来语的一段话,我们看怎么做。我们可以用句法的方式把这个对等成印尼语,如果直接翻译会造成相对的误解,我们可以找到印尼语和马来语之间句法上的一些对等,来解决直接翻译带来的困惑问题。所以可以给大家看三种可能的翻译。所以我们可以找到前十个最可能的印尼语句子,它们和马来语句法是对等的,所以我们把句法对等的句子用英语和马来语之间的双语来进行翻译,然后借由这一步再把印尼语翻译成英语,这是第一步,这是一个单词层面的翻译。下一步做的是类似的事情,但是是短语层面的,我们会把他放在一个上下文当中。我们找到词的一个序列,再看英语、马来语之间的对等,短语的对等,然后会建立这样的一个对等列表,是用我们的英语和马来语的双语料库来做的。马来语和英语的双语料库会在马来语和印尼语之间来对等,来建立印尼语和马来语之间的对等关系。所以我们的概念就是用这个方法重写文本,重复的做前两步,这个方法可以用做翻译词或者翻译短语,同时新创建一个新句子层面的一种翻译的可能性,利用马来与到英语之间的双语料库,再利用这种句法关系进行翻译,然后我们慢慢的让机器训练自己,我们每次都会产生一些假设的结论,然后慢慢的就会改善我们的系统。我们每次的假设,比如说最开始是做一个单词层面的映射,然后慢慢做短语方面的映射,比如说英语跟马来语的词,指的是同一个东西的话,那么我们就可以认为这两个词是对等的关系,同时还可以慢慢建立这种跨语言之间的映射,形态学的映射。

然后我们利用特点的功能,比如说一开始计算一下特点的功能是多少,比如说用单词层面的映射的话,先从马来语到英语的映射,最后形成马来语到印尼语之间的映射,所以每一种假设、每一种特点都会加入一个权重,这个权重会在我们整个进行解码的过程中减少那些坏的假设,增加那些好的假设。做实验的时候我们使用这种数据,这是网上获得的数据,我们有比较小量的印尼语到英语的双语。同时可以找到很多马来语到英语的双语资料,比如说数据量是十倍大的。而同时也可以找到单语的印尼语资源,这个单语的印尼资源可以作为目标语翻译的训练材料。所以我们可以用这些资料、这些数据来进行印尼语句法的生成。

如果我们训练我们的机器,比如说训练90亿个字的话,蓝色可以衡量我们的机器翻译的结果,所以大家可以看到机器翻译的结果慢慢的在提高,很多马来语英语之间的双语的资料可以用在机器上,我们可以看到机器的结果会慢慢变好。虽然马来语、英语有大量的双语资料,虽然只有一百万在英语跟印尼语之间的双语资料,虽然马来语跟英语虽然有很多的相似之处,但还是不一样的。如果你直接去做印尼语到马来语之间的翻译的话会有很多的错误,然后我们研究印尼语之后再去翻译就会大大提高精确度,这样翻译的表现就会提高。所以这是机器学习的联合的作用,这样可以提高翻译的精确性,可以展示出我们适应性的方法,大量相关语言的信息,比如说马来语和英语之间大量的对等,可以帮助印尼语到英语之间的翻译。我们的实践方法是比较通用的。所以我们可以使用相对高资源的保加利亚到英语之间的双语资料帮助翻译,印尼语到英语之间的翻译。我们在相关的学术期刊上已经发表了论文,大家可以查看。

结论就是,我提供了一个语言翻译的适应性方法,可以帮助解决低资源语言的翻译问题。首先是单词方面的翻译,第二是短语方面的翻译,第三是文本重写解码的翻译。这样可以提高我们的翻译质量。

译文由语言资源高精尖创新中心编辑整理