English | 中文

English | 中文

中心成果 |《语言识别理论及语言数量统计的方法论研究》项目成果介绍
作者:
2021年10月19日

一、项目介绍

《语言识别理论及语言数量统计的方法论研究》项目由语言资源高精尖创新中心首席专家、中国社会科学院中国少数民族语言研究中心孙宏开教授,中心首席专家、原中国社会科学院中国少数民族语言研究中心主任黄行教授主持。项目于2017年12月立项,2021年3月开展结项工作。

(一)项目由3个子课题构成:

第一子课题由黄行教授负责,主要任务是通过有关权威文献和数据平台搜集、整理和保有世界各国和地区语言文字资料数据,建立世界主要语言文字知识库,探讨世界语言文字名称等专名的中文译写规则。

第二子课题由孙宏开教授负责,主要任务是开展语言身份识别的理论方法研究。

第三子课题由中心特聘研究员、南开大学冉启斌教授负责,主要任务是在相关大规模语言核心词汇基础上,建立用于距离计算与语言识别的ASJP模式数据库,绘制反映语言发生学关系的世界语言分类图谱。

(二)项目旨在:

(1)填补我国世界语言文字知识资源保有状况的欠缺,为相关学术研究和政府语言规划制订,提供必要的数据资料支持。

(2)充实和完善我国关于语言身份识别的理论方法研究。建立创新型的用于距离计算与语言识别的ASJP模式数据库,绘制反映语言发生学关系的世界语言分类图谱。

(3)初拟世界语言文字名称专名中文译写规则,为相关科研和语文工作领域世界语言文字名称中文译写需求,提供参考规范。

二、项目成果

本项目成果属资源类成果,其主要内容包括:

(一)世界语言文字数据资源的搜集、整理和保有

(1)世界语言知识库

该知识库的语种范围包括ISO国际标准代码、国别、人口、系属、方言、文字等语言基本属性的世界全部语言,以及其中一半以上包括音系、形态、句法、词汇、书写系统等本体知识的语言。

基于该知识库开展了“我国周边国家的语言状况”“一带一路沿线国家的语言状况”这两项当前与我国语言事务关系最密切的世界区域国别语言问题的专题研究。

(2)世界文字知识库

该知识库的文字范围包括书写语言、国别、字符系统等文字基本属性的世界全部现行文字,以及其中最主要的包括历史来源、书写语言、字母表、文字样本等本体知识的文字。

该知识库还归纳梳理了世界现行文字的字母源流、文字系统类型,以及反映世界文字多样性的600多种字体的大多数世界文字字母表的图片文件。

(二)充实和完善我国关于语言身份识别研究的理论方法

项目成果制作了包含迄今为止世界语言数量最大的9788语档的ASJP模式数据库,极大地丰富了我国学术界关于世界语言、中国的语言,特别是汉语方言语档的数据量。

项目依据LDND距离的全面计算,形成4个数值区间,可以用以区分传统上“不同语系语言”“相同语系不同语族语言”“相同语系相同语族语言”和“相同方言变体”等4种区分层级,为确定语言变体之间的身份和关系提供了客观有效的指标。

(三)初拟世界语言文字名称专名中文译写规则

在世界“语种名称及代码”“文字名称及代码”等国家标准,以及谷歌、百度、微软等国内外通用翻译平台6000余既有世界语言文字中文译名的基础上,研制了“世界语言文字名称专名中文译写规则”的初稿。

三、应用价值

该项目成果仍处研发阶段,未来有望在与语言资源相关的学术领域、科研教学机构,以及政府和企事业研发部门产生相应的影响。

以上述三项项目基本成果为例,(1)“世界语言文字知识库”是中心世界语言资源保有的一项必不可少的基本建设内容;(2)基于大数据和复杂算法的“语言身份识别研究理论方法”,将对世界语言和中国的语言身份识别研究提出创新性理论模式,与可供国内和国际学界研讨的学术平台;(3)“世界语言文字名称中文译写规则”可以填补我国“科学技术名词规范”领域尚未系统建立的“世界语言文字名称”专名的空白,为“信息与文献”领域世界语言文字名称及代码的标准研制提供基础数据。