科学研究
科研项目
科研成果
获奖情况
成果转化
首页
>> 科学研究 >> 科研项目
科研项目
项目十 | 孙宏开研究员 黄行研究员-“语言识别理论及语言数量统计的方法论研究”
发布日期:2018-01-02浏览次数:字号:[ ]

项目简介

  世界少数民族语文研究院(SIL International)自1951年开始发布、每若干年修订一次的《世界的语言》(Ethnologue: Languages of the World)是当今关于世界语言情况最权威、最有影响的文献,是联合国教科文组织发布世界语言信息的基础文献,是国际标准化组织制订发布ISO 639-3世界语言编码国际标准的依据,也是维基百科等国际权威电子信息平台发布世界语言数据资料的主要征引文献。《世界的语言》第20版(2017)共包含全球7099种语言的资料信息,每种语言均包括该语言的自称和他称、使用人数、地理位置、语言系属、方言划分、法定民族、文字情况,以及基于著名社会语言学家Fishman设计的“语言代际分级量表”(GIDS)的“语言活力状况扩展代际分级量表”(EGIDS),量表将世界诸语的活力状况分为从最高的0级(国际语言)到最低的10级(已灭绝语言)等级别。与传统上将世界语言分为十几种大语系不同,该书将全球7000余种语言划分为237个语系,其中包括86种不属任何语系的孤立语言,以及传统上不被承认的手势语、克里奥尔语、皮钦语、混合语、重构语言和尚未分类语言等6类特殊的语言。

  统计世界语言数量的前提是如何识别和确定语言的身份。《世界的语言》采用的语言识别标准主要是语言之间的“通解度”(intelligibility)与“认同度”(identity),这种标准与我国民族语言身份识别普遍采用的民族学标准(使用共同的语言是构成民族的首要要素)和历史语言学标准(构成同一语言的下位方言要有相当数量的同源词和同源形态),相去甚远。因此《世界的语言》公布的中国语言超过300种,与我国《大百科全书》《大辞海》等文献公布的130种左右的语言数量存在很大的差距。我国学术界基于中国语言观的语言识别标准和结果,在国际社会和学术界的影响力也因此受到明显的限制。

  由北京语言大学语言资源高精尖创新中心资助的“语言识别理论及语言数量统计的方法论研究”项目,拟通过全面译介、解读和评估《世界的语言》一书语言识别理论方法,结合中国和世界语言本体结构与社会人文资料数据,微观地测算影响语言之间通解度的结构相似程度(主要是词汇相似程度),以及测算影响语言之间认同度的诸社会语言变量的相关与权重,进而完善和创新我国语言学既有的语言识别理论方法,构建和提升兼容中国特色和国际化的语言识别与认同话语体系。项目研制的基础专名数据库将包含世界诸语言、民族(族群)、自然与行政区划等的原有名称及其推荐中文译名,是国内首次开发完成的世界专名数据库,将成为辅助类行业标准。

项目成员简介





打印本页 关闭窗口
Produced By 大汉网络 大汉版通发布系统