“语言识别理论及语言数量统计的方法论研究”项目研讨会召开-北京语言大学语言资源高精尖创新中心

“语言识别理论及语言数量统计的方法论研究”项目研讨会召开

作者：
2017年11月24日

11月24日，语言资源高精尖创新中心“语言识别理论及语言数量统计的方法论研究”项目研讨会在北京语言大学综合楼1223会议室召开。

语言资源高精尖创新中心主任李宇明教授出席研讨会并致辞。项目负责人中国社科院荣誉学部委员孙宏开先生，子项目负责人社科院民族所研究员黄行先生、南开大学冉启斌教授、北京语言大学中国周边语言文化协同创新中心戴红亮教授，项目组成员法国国立东方语言文化学院徐丹教授、社科院语言所李蓝研究员、社科院民族所燕海雄副研究员、北京语言大学中国周边语言文化协同创新中心朱艳华副教授、中国农业大学许峰副教授、中央民族大学曲世锋博士后、扬州大学赵志靖博士，以及项目顾问世界少数民族语文研究院保罗·路易斯（Paul Lewis）博士和范秀琳博士参加了本次会议。

主任致辞

李宇明主任首先对研讨会的召开表示祝贺，并向各位专家的到来表示诚挚欢迎。李宇明主任指出，语言识别研究具有重要的学术意义和社会价值，希望国内外专家针对该问题充分讨论交流，达成更多共识，让科研成果能更大范围地惠及海内外学术界和社会大众。李主任还表示，与北京语言大学是“语言学之家”和“语言学家之家”相一致，语言资源高精尖创新中心的工作原则就是让科学家能够心无旁骛地做研究，中心将一如既往全力支持科学家的工作，提供力所能及的服务，以实际行动来落实尊重知识、尊重人才的理念。

孙宏开先生介绍项目

项目负责人孙宏开先生介绍了项目立项宗旨、研究目标、主要任务以及具体操作方法等。他指出，目前国际上对语言身份的识别多采用世界少数民族语文研究院的方法，该方法对语言和方言的划分和中国国内惯用的基于大规模调查的分析比较方法得出的结果存在较大差异，从而引起了人们对于语言沟通度执行偏差以及其作为语言识别工具的普适性的思考。孙先生希望吸收世界少数民族语文研究院在语言识别问题上60多年的经验，并通过项目组积累的资料和研究成果，提出识别语言的新思路。

黄行先生作报告

随后，黄行先生作了题为《民族语言志翻译与数据库》的报告，介绍了世界少数民族语文研究院所编辑的《世界的语言》（Ethnologue: Languages of the World）中文版翻译计划及数据库建设计划，希望未来中外专家能够进行合作探讨。

冉启斌教授作报告

冉启斌教授作了题为《基于ASJP的语言距离计算》的报告，介绍了如何利用ASJP数据库和LDND距离计算方法，来研究语言沟通度和词汇比较相似度之间的关系。冉教授指出研究的关键在于通过收集语言与方言的大样本数据建立模型，统计语言与方言各自的距离参数。未来项目组将创造性地使用决策树方法，在语言分类与识别的计算方法中注入多种因素，以期达成学界认可度较高的语言计算识别方法。

保罗路易斯博士介绍《世界的语言》

项目组顾问、《世界的语言》主编保罗路易斯博士随后介绍了《世界的语言》第20版的结构、数据来源、编写原则、知识产权与政策、未来规划等内容，并表示接下来非常愿意积极探寻与项目组的合作。

下午，与会专家就上午的报告内容展开座谈讨论，主要就语言和方言分类与识别的标准，沟通度、相似度、可懂度等方法在语言方言识别中的运用等问题进行了深入交流。李蓝研究员认为，国际上使用可懂度区分语言与方言虽适用于许多国家，但就中国自身情况来说，因为政治体制、书写系统、历史文化的关系，国内学界认为汉语是一种语言，所以在语言识别问题上中外学者及时沟通非常重要。戴红亮教授则通过德宏傣语、版纳傣语与泰语的实例指出，可懂度、沟通度、相似度只是语言识别的方法之一，可能不宜作为语言识别的绝对标准，建议综合考量使用。燕海雄副研究员提出沟通度与可懂度作为功能性标准，在语言识别中应当考虑如何对其进行量化。与会专家学者都表示，语言识别是一个非常复杂问题，用单一的标准很难达到普适性的结论，应采用综合标准，且各标准的权重也要科学制定。

今后，项目组将与世界少数民族语文研究院进一步明确合作路径，凝聚共识，形成合力，不断完善世界语言身份识别和数量统计的原则和方法，尽早取得突破性成果。