一、项目介绍
《中文句法语义分析及其应用》项目由语言资源高精尖创新中心特聘研究员、北京语言大学荀恩东教授主持开展。项目于2017年4月立项,2020年9月开展结项工作。
人工智能发展迅速,语言智能是人工智能的重要研究方向,中文句法语义分析是语言智能的核心技术,对推动语言智能的研究与应用有至关重要的作用。目前,在英语等印欧语言中,句法语义分析已取得良好的表现。而中文由于缺少形式标记,存在中文意合和流水句的特点,使得计算机缺少足够的特征去捕捉上下文的信息,中文在该方面始终未取得实质性突破。
本项目以中文句法语义分析作为核心技术研发目标,构建了一个研究和开发的软件平台,获取分析器所需的多层次语言知识,并构建相应的知识库:包括词典知识、规则知识、语块知识、中文动词论元知识等,以探索有知识引导、充分利用大数据和深度学习方法的中文句法语义分析的新方法。
二、项目成果
(一)规范标准
本项目为实现大规模中文句法语义资源建设目标,制定了《语篇句子成分标注规范》《块依存篇章标注规范》。在这两个基础标注规范的指导下,项目组实现了句子结构、“块依存”资源的大规模建设。
(二)资源成果
课题组主要理论研究成果为“意合图”中文语义表征框架。中文句法语义分析是一项语言工程,需要较好的可计算性,并达到较高的形式化程度。课题组充分注意中文的特点,广泛借鉴各类先进语言学理论和计算理论,总结新的理论框架,提出了以“意合图”为表征形式、“块依存”为核心的理论,在面向语言信息处理任务中取得实用效果。
“意合图”指的是面向应用场景的语义表征图,为单根有向图。图中节点对应承载语义概念的语言单元,边为连接两个节点单元的语义关系。“意合图”的生成基于“块依存”。“块依存”指的是以块为基础单元,构建块间语义关系的策略及算法。
意合图示例
“意合图”的构建基于“块依存”文法。在“意合图”的表征形式上,充分借鉴知识和事理图谱三元组集合形式,同时融合复杂特征集的表示形式,使“意合图”的语义表征形式灵活,承载语义内容完备。课题组开展了面向中文句法语义分析的大规模、深层次的多颗粒度语言知识工程。
1、“意合图”标注。针对提出的中文句法语义的“意合图”表示,验证其合理性,同时也为后续工作提供验证数据,项目组启动了中文“意合图”标注工程。目前,定制了“意合图”标注规范和辅助标注软件,已经标注“意合图”约1万句。
2、中文动词内结构标注。对多字中文动词,给出内部结构标注,例如给出结构类型、核心词、是否可离合使用等。标注了动词约2万词,此项工作已经完成。
3、中文“块依存”结构标注。对中文句子区分句法成分组块、句间衔接组块和辅助组块,通过组块序列呈现句子基本骨架。标注了约60万个小句。
4、中文搭配标注。对中文大数据中的组块搭配现象进行了大规模调查,形成了高质量搭配库,规模达900万实例以上。
(三)技术成果
项目组建设开发了中文句法语义分析平台,该平台用于进行句法语义分析器的知识管理和基于网络的协同开发。句法语义分析器为平台的核心组件,平台为分析器的高效运行和功能发挥提供支持。目前这个平台主要功能已经开发完毕。其中,句法语义分析器实现的核心功能包括:
1、词法模块:采用不同方法,设计三个词法分析器,具备中文分词、词性标注和命名实体识别等功能。
2、边界模型:设计10元文法的中文边界模型,用此模型完成二叉树生成。
3、设计块依存分析模型,用于基于词分析与边界识别结果实现语块依存关系识别。
中文句法语义分析平台—演示视频