面向冬奥机器翻译的语言资源集
作者:
2019年05月31日

资源介绍:建立面向冬奥会的中文-英文和中文-哈萨克文双语对齐机器翻译资源库,其中文本-文本中英双语语料库100万句对,语音-文本中英双语语料库10万句对;文本-文本中哈双语语料库10万句对,语音-文本中哈双语语料库1万句对。为面向冬奥会的机器翻译系统及口语翻译研究提供数据支持。

数据量:目前文本语料库包括1600855个中文字数,100000中文句数,998654英文词数,100000英文句数;语音-文本中英双语语料库目前完成了10万句中文语音收集的任务,语音文件大小共3.2G。

文件格式:TXT文本、音频文件等。

项目负责人:刘洋。

资源样例可登录语言资源高精尖创新中心资源平台注册用户查看:http://202.112.195.40:8080/index.xhtml