孙宏开、黄行-语言识别理论及语言数量统计的方法论研究-北京语言大学语言资源高精尖创新中心

孙宏开、黄行-语言识别理论及语言数量统计的方法论研究

作者：高而杰
2017年12月01日

为了让国人更好地了解全世界的语言文字基本情况，本项目计划在全球范围内汇聚各种权威开源信息，经进一步整理加工后，构建一个“世界语言文字基本知识库”，重点展现世界上7000多种已知语言的存在状况和使用状况，具体内容包括：世界诸语言的国际标准语言代码（ISO 639-3）、语言名称、使用人口、地理分布、语言地位和活力、语言系属、语言类型、方言情况、词汇相似性、文字情况等。

此外，本项目还会结合中国和世界语言本体结构与社会人文资料数据，微观地测算影响语言之间通解度的结构相似程度（主要是词汇相似程度），以及测算影响语言之间认同度的诸社会语言变量的相关与权重，进而完善和创新我国语言学既有的语言识别理论方法，构建和提升兼容中国特色和国际化的语言识别与认同话语体系。