关键句采集 原创(如何提高一种赛事文字直播关键句抽取结果的方法?)
优采云 发布时间: 2021-11-20 12:08关键句采集 原创(如何提高一种赛事文字直播关键句抽取结果的方法?)
本发明属于文本信息处理技术领域,具体涉及一种直播事件文本关键句的提取方法。
背景技术:
随着科技的发展,互联网信息深刻地影响着人们的工作和日常生活,尤其是移动终端的广泛普及,使得信息的传递越来越便捷。在这种新的网络媒体下,体育新闻已经成为人们了解体育赛事的主要途径。但是,与体育赛事直播相比,体育新闻报道还存在一定的滞后性。因此,如何提高新闻写作的时效性,实现传统信息采集、新闻稿写作、新闻稿排版等流程的整合,形成从“数据提取”到“稿件生成”,是未来新闻写作的一个热门研究方向。目前,“ 关键句提取效果不好,提取结果的准确率、召回率和F值都比较低,不能满足实际应用的需要。结果的准确率、召回率和F值较高的提取方法。
技术实现要素:
针对现有技术中的上述问题,本发明的目的在于提供一种能够避免上述技术缺陷的直播事件文本中关键句的提取方法。
为实现本发明的上述目的,本发明提供的技术方案如下:
一种提取直播事件文本关键句的方法,包括:
第一步:使用Word2Vec对关键词进行扩展,得到分数相关词集和其他相关词集。将得分相关词集、其他相关词集、得分特征和时间特征组合,形成关键句提取特征;
Step 2:将关键句抽取转化为二元分类问题,使用Adaboost算法进行分类。
进一步的,第一步包括:使用Word2Vec工具将背景语料中的词用向量形式化表达,简化文本到向量空间中的向量操作的处理,通过计算向量中的相似度来表达文本的语义space 的相似度,实现相关词的扩展。
进一步的,第一步还包括:将词以相应的向量形式表示后,将关键词输入到训练得到的词向量文件中,通过计算余弦距离,输出在一定阈值内或在一个一定的顺序。关键词是语义相似的词,得到关键词的相关词集。
进一步,余弦距离的计算如下式所示:
其中,distance(w1, w2)表示词w1和w2的余弦距离,分别是向量空间中w1和w2的词向量。
此外,第一步包括:
基于Skip-gram模型,采用Hierarchical Softmax方法进行优化训练;当前词的词向量用于预测指定窗口上下文的词向量,假设给定训练特征数据w1,w2,w3...wT,那么Skip-gram模型的目标函数为:
其中,Jθ表示目标函数,T是特征数据的总数,c是决定上下文窗口大小的参数;
采用Hierarchical Softmax算法,用哈夫曼二叉树表示特征词,以输出层的T词作为叶节点,将每个词的出现频率编码为权重,为高频词分配较短的路径和低频词。更长的路径,以便可以从树的根节点沿着唯一的路径访问每个单词。p(u|w) 函数定义如下:
其中,L(u)为根节点到u节点的路径长度,是根节点到u路径中第j个非叶节点对应的向量,表示路径中的第j个节点从根节点到u对应的代码,v(w)代表w的词向量;
采用梯度下降法求解目标函数,生成词的词向量表示。
进一步地,得分相关词是与得分相关的词;第一步包括:手动采集一些分数关键词,然后使用Word2Vec将分数关键词与相关词进行扩展,形成一组与分数相关的词并统计句子是否收录与分数相关的词和关键句中收录的得分相关词的个数作为关键句的提取特征。
进一步的,第一步包括:手动采集一些其他关键词,然后用Word2Vec将这些基本的其他关键词相关词展开,形成其他相关词集,并统计句子是否收录其他相关词并收录其他相关词的数量,并将其作为关键句的提取特征。
进一步的,第一步包括:定义一个时间函数,通过该函数判断句子是否在特定的时间范围内,并赋予不同的权重来描述不同时间段的重要性。该函数定义如下:
F(s)=pf1(s)+qf2(s)+rf3(s);
其中,s为目标句,F(s)为目标句的时间特征函数,f1(s)、f2(s)、f3(s)分别是判断句子是否在T1时刻后比赛开始,其他时间和比赛结束前T2时刻的时间范围判断函数,endTime为直播文本中比赛的结束时间,p、q、r为三个时间的权重系数范围,然后将时间特征作为关键句提取的特征。
进一步地,得分特征包括与上一次得分相比的得分变化、球队累计得分、球员累计得分、球队累计无得分等;如果本次文字直播与之前的文字直播相比,得分发生了变化,以变化次数为特征,如果一个队伍持续积累积分越多越重要,累计积分作为特征;玩家积分越多,表现越好;如果某队不累积积分,则以不计分的累积时间作为特征。
进一步的,步骤二包括:将直播文本的关键句提取为二分类问题,将其分为关键句和非关键句,将文本直播文本分为两类,关键句为标签为1,非关键句标签为-1;使用分类回归树不断迭代得到一个强分类器,进行两次分类,输出标签为1为关键句,输出标签为-1为非关键句。
本发明提供的从直播事件文本中提取关键句的方法,首先使用Word2Vec对关键词等关键词进行扩展,得到得分相关词集等相关词集,然后关键句提取转化为对于二分类问题,以分数相关词集、其他相关词集、分数特征和时间特征作为提取特征,使用Adaboost boosting算法提取,并不断调整根据训练集的错误数据计算弱分类器的权重。是将多个弱分类器升级为强分类器的过程,得到更准确的分类器,从而获得更准确的提取效果,达到良好的提取效果,
图纸说明
图1是关键句提取的流程图。
详细方法
为使本发明的目的、技术方案和优点更加清楚,下面结合附图和具体实施例对本发明作进一步说明。应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限制本发明。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
一种从直播事件文本中提取关键句子的方法。首先用Word2Vec对关键词进行扩展,得到分数相关词集和其他相关词集,加入分数相关词集和其他相关词集,对特征和时间特征进行打分。关键句提取特征一起形成;然后将关键句提取转化为二元分类问题,使用Adaboost算法进行分类,选择CART(Classification and Regression Tree)作为弱分类器进行训练,得到分类模型。最后,对未知文本进行直播分类,得到文本直播的关键句。关键句提取流程图见图1。在本实施例中,
使用Word2Vec展开关键词的步骤是:
使用Word2Vec工具将背景语料中的词用向量形式化表达,简化文本对向量空间中的向量操作的处理,通过计算向量空间中的相似度来表达文本的语义相似度,实现相关词扩展,从而加强关键词对关键句的教学效果,进一步提高文中关键句的提取质量。
Word2Vec 是谷歌于 2013 年开源的深度学习工具,用于将单词转换为实值向量。它使用深度学习的思想,训练用K维向量来表达文本中的单词。Word2Vec 得到的词向量,可以用来做很多自然语言处理的工作。比如聚类、词性分析、找同义词等。当一个词作为特征时,Word2Vec可以将这个词映射到一个K维向量空间,并用这个K维向量来表示这个词,文本可以用更深层次的特征来表示。
它提供了两种训练模型,CBOW 连续词袋模型和 Skip-gram 模型。它们都采用浅层神经网络训练方法,其中CBOW根据上下文预测当前词的概率,Skip-gram根据当前词预测上下文的概率。本发明主要基于Skip-gram模型,采用Hierarchical Softmax方法进行优化训练。使用当前词的词向量来预测指定窗口上下文的词向量。给定训练特征数据 w1、w2、w3...wT,Skip-gram 模型的目标函数为:
其中,Jθ表示目标函数,T是特征数据的总数,c是决定上下文窗口大小的参数。c越大,需要的训练数据越多,需要的训练时间越长,但会获得更高的准确率。速度。
为了优化计算效率,使用了Hierarchical Softmax算法。该算法使用哈夫曼二叉树来表示特征词,以输出层的T个词作为叶节点,将每个词的出现频率作为权重进行编码,并分配较短的高频词。路径,低频词被分配了更长的路径,这样每个词都可以从树的根节点沿着唯一的路径访问。因此,p(u|w) 函数定义如下:
其中,L(u)为根节点到u节点的路径长度,是根节点到u路径中第j个非叶节点对应的向量,表示路径中的第j个节点从根节点到u对应的代码,v(w)代表w的词向量。
然后用梯度下降法求解目标函数,生成词的词向量表示。
一般来说,在体育直播文本中,句子中的关键词可以更大程度上表达句子的动作主题,比如“罗伊·希伯特1.2m突破勾手”。在这句话中,可以通过“突破”、“勾手”、“射门”这三个词来推断出这句话所描述的一系列比赛动作。可以看出,这些词对句子的重要性有指导作用。另一方面,一些If词在同一个句子中频繁共现,它们就会具有一定的语义相关性。因此,本发明提出手动构建关键词的基本集合,然后扩展语义相关词的集合,并使用关键词
在大数据的语境下,可以认为向量空间中两点的距离就是对应的两个词的相关程度,所以用余弦距离来衡量其他词与词中词的相关度关键词 集合,余弦距离 词越大,两个词的相关性越高,设置特定的阈值提取相关性高的词,以达到扩展关键词的目的。
将词以对应的向量形式表达后,将关键词输入到训练后得到的词向量文件中,通过计算余弦距离,可以在一定阈值内或按一定顺序输出关键词@。> 语义相似的词,得到关键词的相关词集。余弦距离的计算如公式3所示,其中distance(w1, w2)表示词w1和w2的余弦距离,分别为w1和w2在向量空间中的词向量。
表1和表2分别显示了基于Word2Vec的向量余弦距离计算的“layup”和“missing”两个词的相关词。每个单词后面的值表示向量余弦距离。
表1 与“Laying Basket”相关词的相似度
表2 与“buzhong”相关的词相似度
将文本直播的关键句提取转化为二分类问题,分为关键句和非关键句,将文本直播文本分为两类,关键句标签为1,非关键句标签是-1。因为一个句子能否被提取为关键句受很多因素的影响,根据对NBA文本直播的分析,并参考NBA比赛的比赛制度,提取的特征有四类:得分相关词集,其他 相关词集,得分特征和时间特征。
(1)评分相关词
直播正文中关键句的提取是指提取一些能够反映体育直播中关键事件信息的句子。通过对直播文字的观察发现,“跳投”、“上篮”、“小贴士”等一些关键词回族可以标明比赛中的关键信息,主要是与评分,对关键句的提取有重要的教学作用,所以称为分数相关词。手工采集一些分数关键词,然后用Word2Vec将这些基础分数关键词扩展为形成分数相关词集,统计句子中是否收录分数相关词和分数相关词的个数,作为关键句的提取特征。
(2)其他相关词
与得分相关的词语类似,文字直播中会出现“犯规”、“犯规”等一些词语。这些词对关键句的提取起到了一定的作用。比如在关键时刻,一个投篮不中的球员也会成为举报的对象,这些话都是别的关键词。同理,手动采集一些其他关键词,然后用Word2Vec将这些基本的其他关键词相关词展开,形成其他相关词集,统计句子中是否收录其他相关词以及收录的单个词其他相关词。计数,并将其作为关键句的提取特征。
(3)分数特征
比分是NBA比赛的重要组成部分。分为上一届得分变化、球队累计得分、球员累计得分、球队累计无得分。如果本次文字直播的得分与之前的文字直播相比有变化,以变化次数为特征,例如3分、3分、2分、2分。通过对以往NBA比赛的报道可以发现,一支球队的积分越多越重要,而积分就是特征。相应地,如果一个玩家的积分越多,也说明该玩家的表现越好。如果一个团队没有累积得分,它也可以作为报告的目标。此时,累积不计分时间用作特征。通过提取这些部分的特征,即得分特征,来描述两队在比赛中的得分变化,作为关键句的提取特征。
(4)时间特征
由于NBA比赛的特殊性,选择比赛的时间特征作为关键句提取的特征。在直播文字中,比赛开始前的文字直播信息和比赛结束前的时间段通常被认为是比较重要的。时间特征描述:定义一个时间函数,通过函数判断句子是否在特定的时间范围内,并赋予不同的权重来描述不同时间段的重要性,即时间特征。该函数定义如下:
F(s)=pf1(s)+qf2(s)+rf3(s) (4);
其中,s为目标句,F(s)为目标句的时间特征函数,f1(s)、f2(s)、f3(s)分别是判断句子是否在T1时刻后比赛开始,其他时间和比赛结束前T2的时间范围判断函数,endTime为直播文本中比赛的结束时间,p、q、r分别为三个时间范围的权重系数,根据句子在不同时间段的重要性判断,设p、q、r分别为0.4、0.2、0.4,然后取时间特征为关键句提取的特征。
将上述特征作为文本直播提取的特征,使用Adaboost算法进行提取。Adaboost 是一种提升算法。关于弱分类器的选择: ①树型分类器的训练比较简单,线性分类器的训练时间比较长。②线性分类器的分类精度高于树分类器。不满足弱分类器的条件。能够快速正确识别的过程是强分类器,容易出错的是弱分类器。这里使用的弱分类器是决策树-CART(Classification and Regression Trees,分类回归树)。本发明采用Adaboost算法,使用分类和回归树不断迭代得到一个强分类器,并进行两次分类。1的输出标签属于关键句,称为正例,-1的输出标签是非关键句,称为负例。例子。
本实施例采用网络爬虫从搜狐网站的NBA版块中抓取2009-2016年所有比赛的文字直播数据,共计8469条数据。实验数据是通过预处理、去除文档的HTML标签、解析标签内容得到的。使用 Word2Vec 扩展所有文字直播,得到分数相关词集和其他相关词集。并通过编写程序提取分数变化和时间变化的特征,随机选取50条文字直播作为本文关键句提取的实验数据,并根据搜狐报道网站的消息,然后对应相关文字直播。手动标记为分类的正确答案。
在本实施例中,通过准确率、召回率和F值来评估文本直播的提取效果。其中,准确率P(Precision)的计算公式为:
a代表属于关键句并被正确识别为关键句的文本直播数,b代表不是关键句但被错误识别为关键句的文本直播数。召回率R(Recall)的计算公式为:
c表示为关键句但被错误识别为非关键句的文本直播数。F(F-Measure)的计算公式为:
实验结果与分析:
实验过程中手动构建分数关键词和其他关键词的集合,使用Word2Vec计算分数关键词和其他关键词的语义距离。一。排序到small,选择Top10相关词展开得到相关词集,最后手动过滤每个词集去除明显语义错误词,得到56个评分相关词和34个其他相关词,其中一些Score 关键词@ > 和其他关键词,部分词如表3所示。 然后score相关词集,其他相关词集,句子的时间范围和句子的score变化,这4类特征作为提取特征,然后进行训练,训练好的模型用于测试语料的关键句提取。
表3 部分评分关键词剧集和其他关键词剧集
根据本实施例的实验数据,本实施例利用提取的特征,分别得到关键词和其他关键词的分数。点数为0、5、10、15,得到的实验结果如表4所示。
表4 不同关键词的实验结果表
从表4可以看出,Adaboost boosting算法采用决策树算法作为弱分类器,准确率达到85.7%,召回率达到83.5%, F值达到84.6%。本发明的方法取得了较好的提取效果。本发明方法提取结果的准确率、召回率和F值均高于现有技术SVM算法的准确率、召回率和F值,Adaboost改进了算法(决策树作为弱分类器)在提取实时文本中的关键句子方面比 SVM 有更好的整体效果。经过分析,主要原因是Adaboost提升算法根据训练集中错误的数据不断调整弱分类器的权重。它是将多个弱分类器升级为强分类器的过程,得到一个更准确的分类器。分类器,从而获得更准确的提取效果。
本发明提供的从直播事件文本中提取关键句的方法,首先使用Word2Vec对关键词等关键词进行扩展,得到得分相关词集等相关词集,然后关键句提取转化为对于二分类问题,以分数相关词集、其他相关词集、分数特征和时间特征作为提取特征,使用Adaboost boosting算法提取,并不断调整根据训练集的错误数据计算弱分类器的权重。是将多个弱分类器升级为强分类器的过程,得到更准确的分类器,从而获得更准确的提取效果,达到良好的提取效果,
上述实施例仅表达了本发明的实施方式,所描述的较为具体和详细,但不应理解为对本发明专利范围的限制。需要指出的是,对于本领域普通技术人员来说,在不脱离本发明的构思的情况下,可以进行多种修改和改进,这些都落入本发明的保护范围内。因此,本发明专利的保护范围以所附权利要求为准。