English | 中文

English | 中文

张劲松-面向智能语音教学的汉语中介语语音多模态语料库研究
作者:高而杰
2017年04月01日

智能语音教学技术指的是这样一种计算机功能,它能够部分模拟或替代老师的角色,实施和完成与学生互动的语音教学工作。这种技术能够评价学生的发音质量,并以音视频并茂的形式描述偏误产生的原因,指明修正的方向、引导学生进行正音训练。由于这种技术教学成本低廉,反馈信息形式丰富、表达生动,易于创造以学生个人进度为中心、无时空局限的宽松教学环境,所以是解决二语语音学习难题的有效途径,被认为是改善二语语音学习效果的最有潜力方法。外国学生的不自然的汉语发音一般被统称为“洋腔洋调”,研究针对“洋腔洋调”发音的智能语音教学技术,对于提高汉语国际教育技术的现代化水平、促进汉语国际教育的发展,有着重大的国家战略、学术研究和商业应用意义。

“洋腔洋调”发生的原因既可能是发音动作存在欠缺,也可能是汉语语音的知觉范畴尚未正确建立。目前智能语音教学技术研究所关注的要点问题有:非汉语母语学生发音偏误的自动检测;正音反馈的生成;非汉语母语学生关于汉语语音范畴的知觉规律;汉语语音范畴的知觉模式训练等。研究这些技术问题的基础都是大规模汉语中介语语音语料库。因此本课题的主要任务是构建一个面向智能语音教学的汉语中介语多模态语料库。具体任务可以分解为三个语音语料库建设及两个语料库标注方法研究工作:大规模汉语中介语语音库、不同母语背景外国学生关于汉语主要语音范畴的听知觉数据库、多模态汉语中介语语音库、大规模中介语语音库自动/半自动标注方法以及面向声调、韵律等超音段层级的标注方法等。

1.大规模汉语中介语语音产出数据库是我们发现问题、分析问题、总结问题、验证理论思想、训练声学模型、验证技术性能等的客观依据。为了满足智能语音教学技术研发的需要,该语音库需要标注有正音教学意义的语音标注。

2.语音感知先于语音产出,是发音准确性的前提。二语学习者针对汉语语音范畴的感知模式会受到他们母语语音范畴的影响,构建他们的听知觉数据库,是研究他们对于汉语主要语音范畴认知机制的基础。

3.收集关于喉头仪、音素MRI、EMA等以声音、图片、视频等多种信号形式所记录的发音教学行为数据库,有利于研究基于发音部位、发音动作检测的正音反馈技术,提高教学反馈的直观性和可懂性。

4.大规模中介语语音语料库的标注任务是一个巨大的挑战,我们不仅要研究面向智能教学的中介语语音标注规范,还要研究面向大规模语料库的自动、半自动标注方法。

5.除了音段层级的正音标注,我们还需要研究更富有挑战性的声调、韵律等超音段事件标注问题。

本项目的负责单位为北京语言大学的智能语音习得项目组,成员来自中国社会科学院语言所、天津大学软件学院、美国伊利诺伊大学香槟分校及荷兰莱顿大学,合作单位包括新疆大学、西北师范大学、云南师范大学等院校。