进入本世纪以来,汉语中介语语料库在对外汉语教学与研究中的作用日益凸显,引起了学界的广泛关注,汉语中介语语料库建设渐成高潮,“成为语料库研究中的热点”(谭晓平,2014)。汉语中介语语料库建设正在跨入一个繁荣发展的重要时期。
另一方面,时至今天,汉语中介语语料库建设并无统一标准,不论哪一种语料库,不论是已建成的还是在建的,都是根据建设者的主观认识和研究经验进行建设,建库实践中存在很大的随意性。这种随意性表现在许多方面,例如在语料收集、作者及语料的背景信息、语料规模、语料标注、语料及相关背景信息的查询与呈现方式、分词所依据的规范与词表等诸多方面,都是语料库建设者们根据自己的的主观认识与科研经验采取各自的处理方法,并无统一的标准与规范。这就使语料库在规模、功能、质量、用法等方面存在诸多局限,不能完全满足教师、学生和研究者的使用需求。
为了解决汉语中介语语料库建设中存在的种种问题,特提出本工程,其最终目标是建设一个最好最大的通用型汉语中介语语料库——“全球汉语中介语语料库”。规模为5千万字(前3年约1500万字),包括笔语语料、口语语料和视频语料,突出口语子库和多模态子库的建设,注重语料库功能的提升。语料标注总体上将采取“偏误标注+基础标注”的模式,但针对不同层面的标注内容又实事求是地予以适当调整。在标注的广度上,实行以需求驱动为导向的全面标注,笔语语料标注内容包括汉字、词汇、短语、句子、语篇、语义、语用、标点符号等8项内容,口语和视频语料将去掉汉字标注,增加语音标注和非言语行为标注;在标注的深度上,实行“基于语料库”和“语料库驱动”两种研究范式的理念相结合的浅层标注。除语料库建设之外,还将进行汉语中介语语料库建设的本体研究和理论探讨,包括语料库建设标准、语料收集与录入标准、口语和视频语料的转写标准、语料标注规范等方面的研究。上述内容可以概括为“一库四标准”,是本课题的基本研究内容。课题设计的基本理念是:语料来自全球,海内外汉语学界携手共建,语料库建成后向世界各国的汉语教师、研究人员、汉语学习者、乃至对汉语感兴趣的其他各界人士免费开放,以实现最充分的资源共享,为全球的汉语教学与研究服务。