采集的文章和关键词不符(基于深度学习的文本摘要方法综述研究(Seq)+神经网络语言模型)目前常用的摘要数据集是DUC-2002,DUC-2003,DUC-2004.DUC-2002包含567篇文档,每篇文档有2个人工生成的100词的摘要;DUC-2003包含Times:纽约时报预处理后构成,有超过65万篇工作人员撰写的摘要和150万篇人工标注的文章,并有人、组织、位置和主题等内容的归一化索引表,可用于自动文摘、文本分类、内容提取等任务。目前常用的摘要数据集是DUC-2002,DUC-2003,DUC-2004.DUC-2002包含567篇文档,每篇文档有2个人工生成的100词的摘要;DUC-2003包含Times:纽约时报预处理后构成,有超过65万篇工作人员撰写的摘要和150万篇人工标注的文章,并有人、组织、位置和主题等内容的归一化索引表,可用于自动文摘、文本分类、内容提取等任务。
继续阅读 »