网页新闻抓取(全部详细技术资料下载【技术实现步骤摘要】(组图))
优采云 发布时间: 2022-03-12 02:16网页新闻抓取(全部详细技术资料下载【技术实现步骤摘要】(组图))
一种基于信息检索的互联网新闻影响力量化分析工具,其特征在于,包括:网页内容判断模块,接收网页内容,用于判断网页是否为近似网页;信息提取模块,接收近似网页信息,并从近似网页中检索信息。提取后续计算所需的相关信息;新闻转载率计算模块:接收信息提取模块提取的相关信息,计算转载网站的权限值,然后指定最权威的网站为新闻来源网站@ >,并以此网站的权威值作为新闻转载率;新闻来源 网站 影响力判定模块:用于判断新闻来源网站人气指数的CIIS值,并将该指数归一化为新闻来源网站影响因子;新闻响应率计算模块:用于确定网络新闻的响应率;新闻影响力计算模块:用于新闻影响力值是根据网络新闻的转载率值、新闻来源网站的影响因子值和以上模块得到的新闻回复率值计算得出的。
下载所有详细的技术数据
【技术实现步骤总结】
本专利技术涉及网络信息内容安全领域,具体涉及一种网络新闻影响力分析在网络信息内容安全领域的实现方法。
技术介绍
网络新闻作为一种新的信息传播方式,将对社会稳定产生重大影响。新闻舆论监督的兴起始于美国大法官斯图尔特创立的第四次幂理论。所谓第四次幂,是指新闻和舆论。事实上,它不是国家权力,但随着新闻媒体在社会政治、经济和文化生活中的作用越来越大,它变得越来越重要,发挥着重要的影响。因此,判断新闻影响力对于把握舆论走向、判断新闻对社会保障的影响具有重要意义。在此之前,网络新闻的分析主要是社会科学领域的定性分析,没有定量工具来验证定性分析的正确性。所以,我们提出了一种通过信息检索相关技术获取相关信息来定量分析新闻影响力的方法。20 该方法主要是对网页的权重进行处理,从网页中提取相关信息。然后用这些信息来判断网络新闻的影响力。主要思路是第一步,对新闻网页进行去噪,提取内容块,然后判断它们的相似度。如果确定为重复网页,则提取该网页的相关信息并记录该重复信息,以供后续计算使用。第二步,从新闻网页中提取信息,利用提取的信息和上一步得到的重复信息计算支持率。第三,新闻来源网站的CIIS值被中国互联网指数系统标准化,作为判断新闻影响力的尺度因子。四、根据新闻转载网站之间的链接关系,使用HITS算法计算出新闻来源网站的权限,最后综合计算以上信息,计算出新闻的影响力。
技术实现思路
5 为解决社会科学领域现有技术对网络新闻的分析主要是人工定性分析,没有定量工具来验证定性分析的正确性的问题,本专利技术的目的是提供一种基于信息的检索技术、定量分析工具或设备和方法,有效衡量互联网新闻影响力,将新闻影响力衡量结果与用户定性分析相结合,帮助用户有效判断新闻影响力电影。为了达到上述目的,本专利技术一方面提供了一种基于信息检索技术的互联网新闻影响力量化分析工具,包括网页内容判断模块,用于判断网页是否为近似网页;信息提取模块,用于接收近似网页网页信息,从近似网页中提取后续计算所需的相关信息;新闻转载率计算模块接收信息提取模块提取的相关信息,计算转载网站的权限值,然后分配最高权限。新闻源的网站作为新闻源网站,这个网站的权威值作为新闻的转载率;消息源网站影响力判断模块用于判断消息源网站的流行度是指20位CIIS值,并将该指标归一化为新闻来源的影响因子网站;新闻回复率计算模块,用于确定在线新闻的回复率;新闻影响力计算模块用于从在线新闻的转载率值、新闻来源网站的影响因子值和通过上述模块得到的新闻回复率值计算新闻影响力值。
25 根据本专利技术的实施例,网页内容判断模块采用MD5哈希值的方法来判断整个文档的权重。如果文档完全一致,则直接确定网页之间的转载关系;如果文件不完全一致。,然后根据网页主要内容的相似度进一步判断它们是否是相似的网页。根据本专利技术的实施例,相关信息提取模块还包括网页重复转载信息提取模块。如果确定两个网页是相似的网页,该模块将提取转载重复信息;主要是出处网站和转载< @网站之间的关系,包括直接转载和间接转载;网页回复信息提取模块用于提取来源网站和转载网站中News 5的回复数,然后去除相似网页。根据本专利技术的实施例,新闻转载率计算模块利用相关信息提取模块中提取的新闻转载网站之间的关系,利用HITS算法计算转载的权威值< @网站; 计算后,以入链最多的网站作为新闻源网站,并以此网站的权威值作为新闻转载率。10 根据本专利技术的实施例,利用消息源网站的影响力判定模块判断消息源网站的人气指数cns值,并将该指数归一化为新闻来源网站。@网站影响因素。根据本专利技术的实施例,新闻回复率计算模块在浏览网页后,根据新闻回复次数的相对数量总结出回复率表,并使用表中对应范围内的回复率作为新闻回复率。
根据本专利技术的实施例,新闻影响力计算模块用于使用网页内容判断模块、信息提取模块、新闻转载率计算模块、新闻来源网站影响力判定模块、新闻回复数据率计算模块计算新闻影响力,公式见原文档第7页,NF为新闻影响力;Ws 为新闻来源网站的影响因子;Tmns 为新闻转载率;Rep 为新闻回复率;D(C)为新闻发布时间与其影响力的关系;a=0.8; b=0.2.25 为了达到上述目的,专利技术进一步一方面,as a 节点与网站的转载关系对应原算法中的hllb属性,计算转载网站的权限值;计算后将传入链接最多的网站作为消息源网站的源网站,取源网站的权限值作为新闻的转载率。
根据本专利技术的一个实施例,计算新闻信息源网站的影响力的步骤还包括使用中国互联网指数系统中的网站流行度指数(CIIS值)来确定对应信息源网站@网站的人气指数,然后归一化为新闻源网站的影响因子。该专利技术提供了一种基于信息检索技术的互联网新闻影响力定量分析工具、装置和方法。通过对专利技术的计算,可以获得对网络新闻影响力的量化评价。通过将定量分析结果与人工智能对比定性分析结果,可以有效判断网络新闻的影响力。该专利技术解决了现有技术对网络新闻的分析在社会科学领域主要是人工定性分析,没有定量工具来验证定性分析的正确性的问题。有效衡量新闻影响力的定量分析,将衡量新闻影响力的结果与用户的定性分析相结合,可以帮助用户对新闻影响力做出有效的判断。附图说明图。图1为本专利技术原理*敏*感*词*;无花果。图2是专利技术中相关信息提取模块的框图;25 图。图3为本发明专利技术方法的实施例流程图;人数统计;图5是专利技术时间因素对新闻影响力的影响曲线图。具体实施方式下面结合附图对本专利技术作进一步详细说明。为了有效判断新闻的影响力,我们充分利用了新闻网页的一些特点。具体实施方式下面结合附图对本专利技术作进一步详细说明。为了有效判断新闻的影响力,我们充分利用了新闻网页的一些特点。具体实施方式下面结合附图对本专利技术作进一步详细说明。为了有效判断新闻的影响力,我们充分利用了新闻网页的一些特点。
<p>我们通过权重判断找到新闻网页的转载或类似网页,然后提取转载信息和回复信息,计算新闻的转载率和5次回复率,最后使用新闻来源的CIIS值