中文摘要数据集汇总
笔者之前开源了一个带有超详细中文注释的GPT2新闻标题生成项目。详细介绍见上一篇文章:刘聪NLP:超详细中文注释的GPT2新闻标题生成项目。项目Github链接如下:
近期,对该项目进行了更新,从网上收集数据,将清华新闻数据、搜狗新闻数据等新闻数据集,以及开源的一些摘要数据进行整理清洗,构建一个较完善的中文摘要数据集(其实很多数据的官方链接都已经失效,笔者也是找了很久数据,问了一些朋友,才要到。)。
数据集清洗时,仅进行了简单地规则清洗。例如:清洗htlm标记、去除多余空字符、去除图片标记等。
下面是,各个数据集的基本介绍,数据下载地址见上面的Github。
数据集介绍
1、清华新闻(THUCNews)数据:
清华新闻(THUCNews)数据是清华大学自然语言处理实验室整理,根据新浪新闻RSS订阅频道2005~2011年间的历史数据筛选过滤生成,在原始新浪新闻分类体系的基础上,重新整合划分出14个候选分类类别:财经、彩票、房产、股票、家居、教育、科技、社会、时尚、时政、体育、星座、游戏、娱乐。
利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下:
总数量:830749个样本;
标题:平均字数 19,字数标准差 4,最大字数 48,最小数字4;
正文:平均字数 892,字数标准差 1012,最大字数 78796,最小数字31;
2、搜狗新闻(SogouCS)数据:
搜狗新闻(SogouCS)数据是搜狗实验室整理,来自搜狐新闻2012年6月—7月期间国内,国际,体育,社会,娱乐等18个频道的新闻数据,提供了URL和正文信息。
利用其正文与标题,可以构成新闻标题生成数据。整理后数据信息如下:
总数量:1245835个样本;
标题:平均字数 17,字数标准差 7,最大字数 40,最小数字 4;
正文:平均字数 494,字数标准差 439,最大字数 2046,最小数字 31;
3、nlpcc2017摘要数据:
nlpcc2017摘要数据是2017年NLPCC比赛Task3任务的数据集。整理后数据信息如下:
总数量:50000个样本;
摘要:平均字数 44,字数标准差 9,最大字数128,最小数字 17;
正文:平均字数 990,字数标准差 1049,最大字数 22312,最小数字 52;
4、中文科学文献csl摘要数据:
计算机领域的论文摘要和标题数据,可用于短文本摘要生成。整理后数据信息如下:
总数量:3500个样本;
标题:平均字数 18,字数标准差 4,最大字数41,最小数字 6;
正文:平均字数 200,字数标准差 63,最大字数 631,最小数字 41;
5、教育培训行业摘要数据:
教育培训行业摘要数据是github作者wonderfulsuccess整理,数据主要由教育培训行业主流垂直媒体的历史文章(截止到2018年6月5日)组成。主要是为训练抽象式模型而整理,每条数据有summary(摘要)和text(正文),两个字段,Summary字段均为作者标注。
整理后数据信息如下:
总数量:24423个样本;
摘要:平均字数 52,字数标准差 38,最大字数 255,最小数字 4;
正文:平均字数 2016,字数标准差 1768,最大字数 36058,最小数字 33;
6、lcsts摘要数据:
lcsts摘要数据是哈尔滨工业大学整理,基于新闻媒体在微博上发布的新闻摘要创建了该数据集,每篇短文约100个字符,每篇摘要约20个字符。
整理后数据信息如下:
总数量:2108915个样本;
摘要:平均字数 18,字数标准差 5,最大字数 30,最小数字 4;
正文:平均字数 104,字数标准差 10,最大字数 152,最小数字 69;
7、神策杯2018摘要数据:
神策杯2018摘要数据是“神策杯”2018高校算法大师赛的比赛数据,整理后数据信息如下:
总数量:108089个样本;
摘要:平均字数 24,字数标准差 6,最大字数 72,最小数字 4;
正文:平均字数 1055,字数标准差 979,最大字数 25020,最小数字31;
8、万方摘要数据:
万方摘要数据是github作者EachenKuang整理,数据是从万方数据库爬取的文献摘要数据。
整理后数据信息如下:
总数量:3590个样本;
摘要:平均字数 30,字数标准差 23,最大字数 171,最小数字4;
正文:平均字数 295,字数标准差 257,最大字数 2501,最小数字32;
9、微信公众号摘要数据:
微信公众号摘要数据是github作者nonamestreet整理,从网络抓取的微信公众号的文章。
整理后数据信息如下:
总数量:712826个样本;
标题:平均字数 22,字数标准差 11,最大字数 4984,最小数字4;
正文:平均字数 1499,字数标准差 1754,最大字数 34665,最小数字107;
10、微博数据:
数据来源于新浪微博,由He Zhengfang大佬整理,整理后数据信息如下:
总数量:450295个样本;
标题:平均字数 18,字数标准差 5,最大字数95,最小数字4;
正文:平均字数 123,字数标准差 30,最大字数 1873,最小数字100;
11、news2016zh新闻数据:
news2016zh新闻数据是 CLUEbenchmark整理,包含了250万篇新闻。新闻来源涵盖了6.3万个媒体。
整理后数据信息如下:
总数量:2317427个样本;
标题:平均字数 20,字数标准差 6,最大字数196,最小数字4;
正文:平均字数 1250,字数标准差 1735,最大字数 356749,最小数字31;
总结
笔者整理不易,认为有帮助的同学可以star一下Github,关注我一波~~~
并且笔者最近开了公众号「NLP工作站」,知乎文章会同步过去,希望大家可以支持一下。
欢迎大家加我微信,有问题可以私聊我。
<hr/>其他文章推荐:
刘聪NLP:超详细中文注释的GPT2新闻标题生成项目
刘聪NLP:MacBERT:MLM as correction BERT
刘聪NLP:BERT-QE: 基于上下文化查询扩展的文档ReRank
刘聪NLP:SIGIR 2020之MarkedBERT模型:加入传统检索线索的Rerank模型
刘聪NLP:SIGIR 2020之DC-BERT模型:解耦问题-文档编码,提速QA-Rerank模块
刘聪NLP:开源啦!开源啦!UNILM中文模型开源啦!
刘聪NLP:ACL2020论文整理之问题生成、自然语言推理、预训练语言模型及部分应用、QA问答系统及机器阅读理解
刘聪NLP:智能扩充机器人的“标准问”库之Query生成
刘聪NLP:短文本相似度算法研究 感谢大佬分享 [酷][酷] 您好 似乎还有一个nlpcc20的clts~ 感谢提醒[大笑],一会儿补一下[机智][机智] 感谢分享! [酷][酷] 我的机器是cuda=9.0 pytorch==1.2.0
然后运行过程会报错AttributeError: 'Tensor' object has no attribute 'bool'
我觉得应该是pytorch版本的问题,cuda9.0是否能安装pytorch==1.4.0
在model.py中的
mask = (token_type_ids == title_id).long()
labels = labels * mask这一段可能出现了问题,请问如何解决呢? 是torch版本的问题,提供版本。 我的版本是1.2.0