一、项目介绍
《汉语中介语语料库建设创新工程》项目由语言资源高精尖创新中心特聘研究员、北京语言大学张宝林教授主持开展。项目于2017年立项,2020年11月开展结项工作,课题旨在建设一个最好最大的通用型汉语中介语语料库。
汉语中介语语料库建设创新工程核心成果包括三项,一是资源成果,即“全球汉语中介语语料库”(以下简称“全球库”):二是技术成果,即“语言库建设与应用综合平台” (以下简称“平台”);三是学术研究成果,即“汉语中介语语料库建设标准”和“汉语中介语语料库标注规范”。
二、资源成果
项目建成“全球汉语中介语语料库”,全球库语料资源丰富,规模庞大,类型全面。原始语料总字数达2275万字,标注语料达到1.15亿字,包括来自111个国家和地区(语料不足10篇的国家和地区未予统计)汉语学习者的笔语、口语及视频语料,全面展现了外国人学习汉语的整体面貌。
秉持为全世界汉语教学与研究服务的宗旨,全球库于2018年4月上线试用,于2019年3月4日正式向全世界各界用户免费开放。
全球库具备以下特点:
语料更加丰富。大力充实了欧美国家学习者语料,非洲国家学习者语料也有所增加;区分了华裔汉语学习者语料与非华裔汉语学习者语料信息,以利研究。
标注内容全面且尝试进行自动化标注:进一步完善了字、词、句、标点符号的标注,丰富了语篇标注,增加了短语、语体和辞格标注,以及口语语料和视频语料的语音标注,视频语料的体态语标注。对繁体字、异体字、字词层面的语体分类进行自动标注。
全球库检索方式多样。设置了“字符串一般检索”、“分类标注检索”、“离合词检索”、“特定条件检索”“词语搭配检索”、“按词性检索”、“按句末标点检索”、“单来源对比检索”“两个来源对比检索”、“生语料检索”八项检索方式。
全球库采用“全球共建,各尽所能,精诚合作,共襄盛举”的方式进行建设,海内外汉语学界合作共建汉语中介语语料库。
三、技术成果
项目建成语料库建设与应用综合平台。该平台是一个集成性的网络软件系统,集语料的上传(含单篇语料上传和批量语料上传两种方式)、录入与转写、标注、统计、管理、检索、众包修改维护、升级迭代扩展等八大功能于一体,可以在线完成语料库建设与维护的基本环节,同时生成语料检索系统,全球库的工程建设部分全部是在该平台上完成的。
该平台具有软件系统集约化、建设流程标准化、建设方式网络化与一定程度的自动化、移植推广灵活化等特点,从软件系统开发的角度推动了语料库建设的标准化、自动化,科学化,使语料库可以持续扩展、更新迭代。
四、学术研究成果
在语料库建设的本体研究方面,项目研制了“汉语中介语语料库建设标准”和“汉语中介语语料库标注规范”。这些研究工作在一定程度上促进了语料库建设的标准化、规范化、通用化与资源共享。
全球库及平台链接:http://qqk.blcu.edu.cn/
全球库及平台使用介绍视频
(2019年10月录屏视频)