语言资源高精尖创新中心“语言识别理论及语言数量统计的方法论研究”项目进展交流会顺利召开-北京语言大学语言资源高精尖创新中心

语言资源高精尖创新中心“语言识别理论及语言数量统计的方法论研究”项目进展交流会顺利召开

作者：
2018年07月30日

7月20日，语言资源高精尖创新中心“语言识别理论及语言数量统计的方法论研究”项目进展交流会在北京语言大学召开。中心主任李宇明教授、中央民族大学丁石庆教授、北京语言大学司富珍教授出席会议，并与项目负责人黄行研究员及项目组核心成员南开大学冉启斌教授、中国农业大学许锋副教授、中央民族大学曲世锋老师进行了深入交流。会议由中心副主任刘晓海主持。

研讨会上，黄行研究员详细介绍了项目进展情况、阶段性成果以及存在的问题。目前，项目三个子课题皆按计划不断推进:子课题一已根据《世界的语言》2017年第20版里全球7000多种语言的主要属性信息建成数据库，并正在进行中文翻译工作，此外还初步建成了世界语言“文字”数据库，据统计，世界已创建文字的语言有3870种，其中3017种使用的是拉丁字母；子课题二的第一批理论成果已采取专栏形式集中发表于《语言战略研究》2018年第2期，为整个项目实施提供了比较全面的理论方法支撑；子课题三基于ASJP数据库，利用LDN距离计算方法、“拐点效应”（elbow effect）及分类树形图等科学方法，对世界语言与方言进行区分，子课题负责人冉启斌教授还计划在坚持学术标准的基础上，对相关变量和计算方法做进一步的探索，尝试在局部使用决策树模式进行语言分类研究，以构建一个兼容国际现有主流做法且体现中国特色的语言识别方法体系。

与会专家就语言识别的理论探索、方法研究、工作推进方案以及预期成果意义等方面提出了富有建设性的指导意见。丁石庆教授肯定了项目的核心价值，认为该项目立足学科前沿，攀登学术高峰，其成果能在国际舞台上发出中国声音，并希望项目组认真考虑语言和方言分类识别理论及方法的普适性与针对性，同时建议项目组做好项目进展规划和成果策略研究。司富珍教授对项目在研究语言划分时使用客观的跨学科方法表示认同，并认为语言与方言的识别和区分应主要着眼于语言本体，重视语言内部特征和规律，其他诸如政治、民族、文化等影响因子是次要因素，可作为参考。

李宇明教授最后对项目组的辛勤付出表示感谢，并指出对全球诸语言与方言进行分类与识别是世界性学术难题，该项目以中国视角关注世界语言问题，不仅能让中国的学术声音传向世界，还能为解决国家周边战略安全问题提供重要的参考项。他希望项目组进一步扎实做好“四库”等基础性工作，用已知带未知，从理论和方法上解决全球不同类型不同层面的语言及方言的划分和归类问题，并将项目成果用于解决我国语言资源保护工作中遇到的语言甄别、归类等问题。他建议项目组定期邀请国内外专家召开专题学术研讨会，针对世界语言身份识别和数量统计等问题不断碰撞思想，形成共识，切实为国家提供战略智库支持。