用于语言识别的世界语言资源集-北京语言大学语言资源高精尖创新中心

用于语言识别的世界语言资源集

作者：
2019年05月31日

该资源为中心在研项目《语言识别理论及语言数量统计的方法论研究》子课题的成果。项目负责人为语言资源高精尖创新中心特聘研究员、南开大学冉启斌教授。

该资源集系统收录各语档Swadesh核心词表最稳定的40个核心词的语音形式。数据库中的信息资源包括语言名称、wlsfam编码、wlsgen编码、e编码、hh编码、经纬度、使用人口数量、WALS编码、ISO693-3编码等。40个核心词的语音形式数据资源以独特的ASJPcode进行编码，便于计算机处理。该数据库的主要用途是通过特定的ASJP（相似性自动判断程序）计算世界语言之间的距离，进而进行世界语言分类、世界语言历史发生学、语音对应关系、语系语言发源地、语言迁移速率等研究，数据库可以通过R、Python等进行计算；能够与其他大型世界语言数据库如GlottoLog、WALS等相关联。

项目成果制作了包含迄今为止世界语言数量最大的9788语档的ASJP模式数据库，极大地丰富了我国学术界关于世界语言、中国的语言，特别是汉语方言语档的数据量。

项目依据LDND距离的全面计算，形成4个数值区间，可以用以区分传统上“不同语系语言”“相同语系不同语族语言”“相同语系相同语族语言”和“相同方言变体”等4种区分层级，为确定语言变体之间的身份和关系提供了客观有效的指标。