语言智能是人工智能的重要研究方向,中文句法语义分析是语言智能的核心技术。英语等印欧语言中,句法语义的计算机分析方法已取得良好的性能。而中文由于缺少形式标记,存在中文意合和流水句的特点,使得计算机缺少足够的特征去捕捉上下文语言信息,在分析准确度上始终未取得实质性突破。与本体研究不同,面向计算机应用的句法语义分析理论需要较好的可计算性和较高的形式化程度。项目组以语言大数据为基础,提出针对汉语特点的句法语义分析框架,利用语言工程方法展开研究,是一次大型的语言工程实践,其研究成果将对语言学和计算语言学产生深远影响。
项目研究的核心目标是研发面向实际应用的、具有高鲁棒性、高正确率和线速计算复杂度的中文句法语义分析器。项目广泛借鉴各类先进语言学理论和计算理论,充分注意汉语的特点,通过语言工程实践来验证理论在语言大数据上的有效性,逐步总结完善新的句法语义分析理论框架。
为了实现该目标,项目组围绕三方面关键问题开展研究。首先,分析器要协调句法、语义和语用三个语言层面的互动,做到语义分析以句法结构为指导,以语言应用中的语用需求为牵引。句法语义分析过程中,以词组本位为研究出发点,建立小句的句法层次结构,梳理出各级结构的中心语及其附着成分,对复杂结构进行约减,为识别小句内谓词及其候选论元提供结构信息。在语言应用阶段,需要建立与语用相衔接的语义范畴,给出谓词及其论元的角色关系。
其次,分析器的设计和实现要考虑实现符号计算、统计计算和联结计算融合的方法。句法语义分析是非线性的复杂任务,神经网络方法面临训练数据稀疏、可控性不强、训练过程复杂等问题,需要知识的嵌入和统计计算的引导。本项目重点以汉语为核心,构建谓词句法及其论元结构资源,通过深度学习方法,学习句法和语义嵌入算法,构建歧义消解模型,采用网格分析技术进行句法分析选优。
第三,项目需要研究语言大数据下,语言知识获取途径和方法。项目组充分借用语言学研究成果,利用大数据,获取语言知识,采集书面语和口语多语体汉语数据,目标建立规模在TB级别以上的汉语分析大数据。以BCC为基础,建立汉语言大数据管理和应用的技术平台,采用语言学的变换方法,建立语言变换表达式,抽取各种结构类型的语块实例,包括连续语块、词语搭配、框架式表达和离合词语等。
本项目是一项复杂的语言工程,在语言资源高精尖创新中心的架构下,通过开展跨学校、跨部门和跨学科的合作研究,促进学校现有学科的发展,尝试拓展新的学科增长点。通过交叉学科建设,培养计算机和语言学跨界人才。项目组立足理论、技术和产品三位一体。在理论研究的基础上,最终利用核心研究成果开发面向汉语语言学习和教育的语言智能产品。通过汉语分析技术核心技术研发和应用产品开发,促进语言学和信息科学跨学科建设,从而为社会提供语言服务的新模式。