语言资源高精尖创新中心召开“语言识别理论及语言数量统计的方法论研究”进展交流会暨第三子课题研讨会-北京语言大学语言资源高精尖创新中心

语言资源高精尖创新中心召开“语言识别理论及语言数量统计的方法论研究”进展交流会暨第三子课题研讨会

作者：高而杰
2019年05月16日

2019年5月16日，语言资源高精尖创新中心“语言识别理论及语言数量统计的方法论研究”项目在天津南开大学召开进展交流会暨第三子课题研讨会。项目负责人黄行研究员、第三子课题负责人冉启斌教授、第三子课题外籍专家Søren Wichmann教授，中心常务副主任杨尔弘教授等参加会议。参加会议的还有南开大学汉语言文化学院的有关师生。会议由项目负责人黄行研究员主持。

杨尔弘教授首先致辞。她在致辞中重申了该项目的重大意义，称项目在立项、推进中得到研究学界的高度关注，项目研究内容令人振奋，并提出中心期待的项目预期成果。她还着重介绍了中心近期确立的语言资源建设理念。

杨尔弘教授讲话

随后，项目负责人黄行研究员汇报了项目的最近进展情况。黄行研究员称，世界少数民族语文研究院（SIL International）授权的《世界的语言》翻译有了较大进展，已完成7099种语言的绝大多数语言名称和地名的翻译任务，并已收集3500多种语言的语料。项目第三子课题目前已完成503种民族语言和汉语方言点的数据库建设和65种汉语方言的距离计算分析，初步探索了汉语方言的起源地与年代，并对汉藏语系其他语言进行了距离计算，探索了新的计算方法；计划下一步完善并确定最终版数据库，进行更大样本的距离计算分析与探索。

黄行研究员汇报项目进展情况

Søren Wichmann教授和冉启斌教授围绕项目第三子课题分别作研究报告。Søren Wichmann教授作了《世界语言语系分化年代自动断定的新方法/汉藏语系的起源地与分化时间》的报告，并演示了ASJP数据库的更新与交互程序的应用。冉启斌教授作了《汉藏语言的距离计算分析》和《基于DTW算法的语音、语言计算分析》的报告。两位老师从语言距离计算与语言分化年代研究的最新前沿，结合自身研究，与参会人员进行了研讨交流。

Søren Wichmann教授首先简要介绍了三种主要的语言定年法，即语言年代法、ASJP定年法和贝叶斯定年法。然后详细解读了近期发表的两篇有关汉藏语系语言定年和原始汉藏语起源地的论文，Zhang et al（2019）和Sagart et al（2019），系统比较了两篇论文的方法论、数据来源、定年方法的校准、对系统发育地理学推断结论的解读等，并认为两篇论文的结论总体上是相近的，尽管在细节处理方面还存在差别。在此基础上，Wichmann介绍了其团队新近开发的广义贝叶斯定年法（Generalized Bayesian Dating）的特点、工作原理和优势。该方法的优势体现在三方面，即自动化的同源词识别机制，对语种规模不设上限，以及良好的可重复性。最后，Wichmann将广义贝叶斯定年法的分析结果、ASJP定年法的分析结果以及既有文献报道的分化定年结果做了比较，结果显示，广义贝叶斯定年法在语族分化年代断定方面表现较好，在分化年代较为晚的语言支系定年方面还有待提高。他指出下一步的工作方向是选用更多词项提高定年分辨率，和开发用户友好型的交互界面等。

Søren Wichmann教授作报告

冉启斌教授介绍了基于ASJP模式的汉藏语系语言距离计算情况。系统发育方法分析看到，东北官话与闽方言之间的亲缘关系最远，客赣徽湘等方言过渡性特征明显；汉语方言中接触表现突出，北方方言和过渡性方言的内部接触非常多。南宁、广州等方言与中古汉语相似度最大，西宁、昆明等方言与中古汉语相似度最小。如果以洛阳为原点进行计算，看到距离洛阳越远的方言，与中古汉语的相似度越大，相似度的增加速率为1.875/500km。将中古汉语和上古汉语考虑进来，汉语相似度的历时变化速率为0.79/千年。汉藏语系语族内的平均相似度按降序为：汉语方言＞壮侗语族＞苗瑶语族＞藏缅语族。

冉启斌教授作报告

会议最后还安排了拓展研究工作坊，三位相关领域的师生分别作了《汉语名词与动词语音差异的初步考察》、《反义词中的音义关联？：对100种语言反义词的考察》和《基于DTW距离的动物声音分类研究》的报告。