用于语言识别的世界语言资源集
作者:
2019年05月31日

资源介绍:该数据库系统收录各语档Swadesh核心词表最稳定的40个核心词的语音形式。数据库中的信息资源包括语言名称、wlsfam编码、wlsgen编码、e编码、hh编码、经纬度、使用人口数量、WALS编码、ISO693-3编码等。40个核心词的语音形式数据资源以独特的ASJPcode进行编码,便于计算机处理。该数据库的主要用途是通过特定的ASJP(相似性自动判断程序)计算世界语言之间的距离,进而进行世界语言分类、世界语言历史发生学、语音对应关系、语系语言发源地、语言迁移速率等研究,数据库可以通过R、Python等进行计算;能够与其他大型世界语言数据库如GlottoLog、WALS等相关联。

数据量:收录世界范围并重点以中国境内语言为主的40核心词的语音形式,中国境内语言部分至少达到300种语言/方言,其中少数民族语言至少100种以上,汉语方言约200种左右。目前文件大小2.74MB。

文件格式:EXCEL表格。

负责人:冉启斌。

资源样例可登录语言资源高精尖创新中心资源平台注册用户查看:http://202.112.195.40:8080/index.xhtml