English | 中文

English | 中文

刘华
暨南大学教授

刘华教授为中心在研项目《海外华语资源库建设》的专家组成员


刘华,男,1975年生,博士,暨南大学教授、博士生导师,语言资源高精尖创新中心(北京语言大学)、北京成像技术高精尖创新中心(首都师范大学)兼职研究员,国家语委“海外华语研究中心”主任助理,广东省“千百十”省级培养对象,《中国语言生活状况报告》(2005-2012)编委、《中国语言生活绿皮书》(系列)编委(2005-2012)。

刘华教授本科、硕士专业是文学、语言学,博士期间主攻计算语言学和计算机软件,文理兼修,具有较好的语言学特别是计算语言学功底,熟练的计算机编程及统计计算技能,文理结合得较好。主攻方向:基于大规模语料库,利用计算语言学、数据挖掘、知识发现的方法,辅助汉语(华语)及汉语(华文)教学研究,致力于智能信息处理、信息检索、智能汉语教学等语言科技方面的创新研究与软件开发。

近年来,出版专著3部,共发表CSSCI以上期刊论文50余篇,其中14篇被3大索引检索,主持国家社科基金一般项目3项、主持省部级项目7项(重大课题1项),参与国家级课题多项,获省部级科研奖励1项。


一、研究介绍

(一)语料库语言学

建设了22亿字的“全球华语语料库”:海外华语媒体语料库、华文教材语料库、留学生作文和口语语料库、中国大陆分类语料库、中国大陆小学生作文语料库、汉语教材语料库,已分词标注词性。教育部、“国家语言资源监测与研究中心”已利用该语料库发布、出版了相关报告和论文。

建设了海外华语多媒体语言资源库(华语社区个人、家庭、社区口语语言生活场景录音录像,华语社区语言景观照片,100G)。

完成“全球华语语料库”网络版字词检索系统,完成“语料库建库统计一体化系统”、“汉语助研”软件。


(二)计算语言学

1、新词语发现

提出了一个基于网页链接分析的新词语发现与聚类的新算法,“中国语言生活状况报告:年度新词语”(国家语委发布,商务印书馆出版)2007-2016年采用了用此方法提取的新词语。

2、词语聚类

基于任意语料,无需先验知识,自动进行词语主题聚类。该方法已用于分领域汉语教学用词表建设、智能广告。国家汉办采用了我们用该方法构建的商务词表作为《BCT商务汉语考试词汇大纲》,国内多家在线广告机构购买了该词语聚类服务。

3、语块与搭配

基于“语块”理论,在超大规模的语料库中自动提取语块及其搭配。计算和研究语块搭配的类连接、语义韵等语言学特征规律,辅助汉语教学。

4、汉语词语表

建设了全球汉语(华文)报纸、网站、教材、作文、口语等语料库(22亿字),利用数据挖掘的方法,完成了“汉语口语教学分级词语表、华文教材核心分级词语表、少儿华语主题分类词语表、商务汉语分级词语表、旅游汉语词语表、华文水平测试分级词语表”等。


(三)计算语言学辅助汉语(华语)及汉语教学研究

基于大规模语料库、利用计算语言学方法辅助华语字词使用调查研究,发表多篇论文和研究报告(《中国语言生活状况报告》,《东南亚华文媒体用字用语研究》)。

利用数据挖掘方法,在面向汉语教学的基本词表、领域词表、字词句难易度计算、话题库、语块搭配、交际构式、常用句、影视教学等方面发表了系列论文,出版《汉语现代教育技术》,开发了基于字词句的汉语教学资源库、移动汉语学习软件。


(四)语言智能科技

1、侨务舆情监测

每日即时采集境内外全媒体有关侨务的信息,利用主题分析、文本分类、社会化计算等方法,自动监测侨务舆情,进行侨务舆情实时预警,为政府侨务工作部门提供决策服务。

2、综合自动标引

从大规模分类语料库中智能挖掘关键短语及其主题度作为领域知识,完成了一个综合自动标引系统,集成文本分类、主题词标引和自动文摘功能。该系统已应用于机械工业研究院、北京旗帜创想科技有限公司等多家机构。

3、中文作文智能批改系统

面向中国中小学生、华裔华语学习者、汉语二语学习者,建立一个交互式的中文作文智能批改与评测平台,分别支持语文、华语、汉语作文的智能批改和评测。


二、科研项目(皆为主持人)

1. 汉语移动学习资源建设的理论与方法研究,2019年度国家社科一般项目,20万,2019-2021,19BYY018,主持,进行中

2. “汉语助研”语料库建设统计一体化系统,2017年国家语委后期资助项目,2017-2018,HQ135-15,已结题

3. 海外华语资源库建设,北京市高精尖创新中心“语言资源”重大项目子项目,2017-2022

4. 基于语料库的汉语热字热词热语海外华语传播研究,2016年国家语委重点项目,2016-2018,ZDI135-6,已结题

5. 中文作文智能评测及批改系统,北京市高精尖创新中心“成像技术”重大项目,2015-2017

6. 基于语料库与计算方法的汉语国际教育资源库建设,广东省高层次人才引进项目,2014-2016,已结题

7. 东南亚华侨华人语言生活及华语语料库建设研究,广东省“理论粤军”2013年度重大基础理论研究课题,2013-2015,LLYJ1321,已结题

8. 海外华语语言生活状况调查及多媒体语言资源库建设,2013年度国家社科一般项目,2013-2016,13BYY090,已结题

9. 东南亚小学华文教材用字用语调查研究,国家语委一般项目,2010-2011,已结题

10. 基于语料库的东南亚华语基本词语研究,2008年度国家社科一般项目,2009-2011,已结题

11. 基于语料库的海外华语字词研究,广东省社科规划项目,2007-2009,已结题


三、发表论文(部分,皆为独立或第一作者)

1. 面向东南亚华语语言规划的语言态度调查研究,语言文字应用,2018

2. 商务汉语常用词语表的重构与等级划分,华文教学与研究,2018

3. 汉语教学用话题分类常用词、句、式、篇资源库建设,华文学刊(新加坡),2018

4. 少儿华语教学主题分类词表构建,华文教学与研究,2017

5. 《华文水平词汇大纲》研制,华文学刊(新加坡),2016

6. 华语作为第一语言教学的常用分级词表研制,海外华文教育,2016

7. 海外华语语言生活研究的理论与方法,华侨大学学报,2015

8. 汉语教学用话题库及话题分类影视资源库构建,世界汉语教学,2014

9. 近年来海外华文教育发展的现状、问题及趋势,东南亚研究,2014

10. Constructing of Multimedia Resources for Second Language Teaching Based on Intelligent Information Processing Movie ResourcesInternational Journal of  Emerging Technologies in LearningEI期刊)2013

11. 海外华语语言生活调查及多媒体语言资源库构建,语言文字应用,2012.12

12. 东南亚主要华文媒体非通用汉字使用情况调查研究,华文教学与研究,2011

13. 小学生习作用字情况调查(第二作者),课程·教材·教法,2011

14. 东南亚主要华文媒体用字情况调查,华文教学与研究,2010

15. 面向对外汉语教学的话题聚类研究,外语研究,2008

16. 汉语信息处理中短语优势的理据及实验证明,语言文字应用,2007.12

17. 基于文本分类特征提取的领域词语聚类,语言文字应用,2007.3

18. 基于关键短语的文本分类研究,中文信息学报,2007

19. 改进的简单贝叶斯文本分类,暨南大学学报(自然科学),2007

20. 基于分类标注语料库的关键词标引知识自动获取,图书情报工作,2007

21. Algorithm and Implementation of Stereo Model in Text Categorization,Journal of Computational Information Systems(EI期刊),2007.10

22. 一种快速获取领域新词语的新方法,中文信息学报,2006

23. 超大规模分类语料库构建,现代图书情报技术,2006


四、出版著作

东南亚华文媒体用字用语研究(专著),暨南大学出版社,2015

汉语现代教育技术(合著),暨南大学出版社,2015

词语计算与应用(专著),暨南大学出版社,2010


五、科研获奖

广东省2012-2013年度哲学社会科学优秀成果奖三等奖,2015

语言文字应用优秀论文奖,2009