English | 中文

English | 中文

国际会议专栏:端木三教授特邀报告 | “一带一路”语言资源与智能国际学术研讨会
作者:
2017年07月27日

特邀报告人:端木三教授

Prof Maurizio Viezzi

端木三,美国密西根大学语言学系教授。1981-1986年在复旦大学外文系任教,1990年获麻省理工学院博士,1990-1991年在麻省理工学院做博士后,1991年至今在密西根大学语言学系任教。研究重点是语言的共性,特别是音系方面的共性,专著有The phonology of Standard Chinese(牛津大学出版社,2000年第一版,2007年第二版),Syllable structure:the limits of variation(牛津大学出版社,2008年),《音步和重音》(北京语言大学出版社2016),以及A theory of phonological features(牛津大学出版社,2016)。个人网页:www.umich.edu/~duanmu

发言题目:音系数据库和中国音系数据库

发言译文:

我是一个音系学家,但是希望尽可能多地搜集更多的数据,我会给大家介绍一下信息音系数据库,看一下他们的用途是什么,还有看一下中国音系数据库,是我和我之前研究相关联的领域,我们会关注一些音系方面的应用,我会用很多的音系数据库。首先是斯坦福的音系档案,70年代的时候有200个,UPSID是南加州音系数据库,80年代的数字是451,2004年到2007年的时候有一个库的数字是628个,最后一个是华盛顿大学制作的,有超过2000个人的音素,现在已经到了三千了,到现在可能已经有四千个人的音系数据库了。

在音系数据库里主要的研究成果如下。中间也讨论了很多研究的问题,这里我只谈一个问题,就是如何使用音系数据库。这是基于我的著作,这是我去年写成的一本书。这里的问题是在全世界的语言中有多少个不同的元音,另外人类还可以使用哪些元音。如果我们知道了这么多目前的可能的元音,他们需要有多少个特性,每个特性中间如何进行对比。目前通行的看法,元音是有着不同的尺度,你可以不同的元音放在不同的尺度里。每个元音有自己的边界和尺度。而且语言之间的差别以一种非常系统的但是也有细分的差别去区别开,比如挪威语和德语之间的差别,点状的线是德语,实线是挪威语,这里有6个人,这里有10个人。这个i的因素是不一样的,我们看到这些特点能够得以凸显。

这里是JND的还有元音的空间,这里是尺度,如果说距离之间的差别是可以区分的,你会发现元音之间有不同的差距,不同的距离,每个语言可以选择它自己的元音。如果说你看到数据距离是2的话,你的后音节,后元音的差距就是2。这个距离是从2到4,所以每个语言之间的选择是不一样的。所以a元音在a语言中,还有在b语言之间相同的元音是距离靠后一些。

另外,这样的一个系统,可以帮助我们去进行不同层级的对比,来对比各种元音发音后部的位置,所以问题是我们看到了这么多的元音,有九度。所以说我们都需要这么多的元音,我们应该怎么去发现这些元音。我们需要有一个非常重要的对比原则就是POC,POC是音系学里最基本的原理,如果这两个声音不能够被对比,我们就不能找出两者之间的区别。我们可以看到两个发言人,他们两个都是说美式英语,可以看到他们的元音发音是不一样的。但是他们舌位的位置是大致一样的。还有一个例子,同样的一个人讲了十分钟的话,i、a、u,每一个元音的分布云图。这里的方法是把在整个数据库里找到所有的元音符号,把它变成一个特性表,在每一个元音里面对它进行尺度对比。我们再看一下每一个语言里面,看一下哪些语言需要更多的对比。我们继续来看这个语言需要多少不同的对比。

这是在数据库里一个例子,有38个基础元音,他们发音部位有三度,音高有八度,会搜索所有有三度的发音部位的语言,同时再看一下舌位高度的不同语言。我在所有数据库里进行了搜索,有三种语言,有三种程度的发言位置,每个都有细节。这是第一个,在这个Moro语言里有7个元音,最开始的文件中有些是要加强的元音,有时候是弱元音,有些是强元音。这意味着有些不是完全的音素,所以有些语言里的嘴形位置是靠后的,在Woiskika这个语言里面,从中后元音有三种,但是最开始的文件中表明原来的三种元音是另外三重,但其实是同样的。所以这个也可以进行一定的比较。

总之,没有任何的语言,有三种后元音的对比方式,四个双重的特点就足以能够区分所有的基础元音,能够让他们在我这个数据库和基础数据库中进行区分,也就是后元音、元音和高位置元音,以及a、r元音。如果结论是这样的话,所有语言其实都是用同样的组合的元音发音方式,所以做跨语言的比较就是可能的。

另外,这个结论是非常自然简单的结论,如果进行三个方面的比较,问题会变得比较复杂,因为你不光是要考虑方向的改变,还需要考虑程度的改变。所以我们继续在这个数据库进行了数据库建设工作,想弥补目前数据库的缺陷。目前的数据库只是从英语的语言来提取的数据,比如在P基础数据库中有128个数据列表,只有3个包括中文,另外7个是其他的比较小众的语言,而没有任何音节的语言音素的数据表。所以我就做了这样一个中文的数据库,也发表出来了,这是中文语音数据库,可以为我们提供更多的信息。我们调查了大学的亚洲图书馆,以及我们电子的期刊,以及各种的文件和论文,当然我们也进行了田野考察。我们现在有超过一千个语音数据列表,我们也搜集了之前数据库的信息。我们创新的就是进行了语调以及音节和技术方面的语音数据的建设工作,这都是事前没有的,因为大多数的中文研究,关于语音的研究并没有进行我们做的这种区分,并没有对声音进行这种区分,所以这是新的一点。

比如我们做语音素分析的时候,之前比较困难做这一点,但是我们却在努力做这个工作。比如普通话里是可以进行音节切分的,使用声母和韵母可以把所有字进行区分,每一个字就是一个音节。这是一个例子,不一定会给你提供一个能用在一切情况下的解决方案,但是你建立起来这样的一个音节的数据库之后可以将它作为标准进行其他方面的分析,这是语言学的一部分,所以我们可以用这个音节来分析语言学其他的方面,这是我们必要的工具。如果两音节押韵的话,他们会产生不同的声音。

中文的音节之间的间隔是非常大的,80%的音节组合之间都是隔开的。中间的音节间隔也为我们提供了其他研究方面的佐证。同时,比如i这个音,所有被动的组合。那其他的声音、元音也会经过不同的组合产生不同的效果。那么经过我们的研究,其中的一些组合并不符合那些设想,他们并不具有这样的音节组合的结构。其他的特点有什么呢?CVX的特征是有35个组合型的语音群,有12个单独的语音群,所以总共是47个。这是最后我们一个比较的列表(图)。大家可以看到结论其实是明确的,所有的信息在音节的数据库中都可以查到。

如果我们能够优化这样的语音的分析,注定是会有非常大的促进作用。和传统观点不一样的,语音分析可以是非常清晰的分析。另外一个关键的标准,我们应该搜集足够多音节的数据,才能进行这样相关的分析。最后想说的,语音的数据库可以用在很多的情况之下,不光是作为音节的分析,其他的科技也可以用我们的数据库,可以用相关的理论结构。那么关于语音的分析,当然是可以借用我们的数据库,可以开发相关的理论。这是为我们数据库做出贡献的人们,有14位科学家,这里有一些参考的书目,谢谢大家。