为了让国人更好地了解全世界的语言文字基本情况,本项目计划在全球范围内汇聚各种权威开源信息,经进一步整理加工后,构建一个“世界语言文字基本知识库”,重点展现世界上7000多种已知语言的存在状况和使用状况,具体内容包括:世界诸语言的国际标准语言代码(ISO 639-3)、语言名称、使用人口、地理分布、语言地位和活力、语言系属、语言类型、方言情况、词汇相似性、文字情况等。
此外,本项目还会结合中国和世界语言本体结构与社会人文资料数据,微观地测算影响语言之间通解度的结构相似程度(主要是词汇相似程度),以及测算影响语言之间认同度的诸社会语言变量的相关与权重,进而完善和创新我国语言学既有的语言识别理论方法,构建和提升兼容中国特色和国际化的语言识别与认同话语体系。