免规则采集器列表算法(触发元素动态型网页的两种方法和应用方法 )
优采云 发布时间: 2021-09-09 21:18免规则采集器列表算法(触发元素动态型网页的两种方法和应用方法
)
。该标签被定义为替代的有效标签。
2.2.2 触发元素动态网页采用异步加载技术。当用户点击触发元素时,会触发绑定到有效元素的特定事件,浏览器会执行该事件对应的JavaScript动态脚本程序。 因此,需要一个工具来模拟用户的点击操作,而HtmlUnit正好可以解决这个模拟问题。 HtmlUnit是一个开源的Java页面分析工具,使用Rhinojs引擎,可以模拟浏览器操作,运行速度非常快。该系统使用全检测扫描算法[13]对有效元素集中的所有元素进行点击操作。 2.2.3 触发有效性判断 当动态网页触发有效元素时,会改变DOM树的结构。触发器有效性判断也可以表示为DOM树结构的变化,因此可以比较DOM树结构的相似度作为触发器有效性的指标。由于每次获取下一页,只有网页中的图片和文字信息发生变化,其他杂音、链接等部分基本不变。因此,在判断DOM树的相似度之前,通过正则表达式过滤中文文本信息。何欣等
[14] 使用简单的树匹配算法来确定 DOM 树的相似度。它是一种限制匹配算法,它使用动态规划来计算两棵树之间的最大匹配节点数,以获得两棵树结构的相似度。程度;罗斯特等
[15] 提出了一种比较页面的方法。该方法首先比较各个模块,为模块定位DOM树结构的特征部分。如果确定内容相同,则过滤掉部分信息,将剩余的内容传递给下一个比较模块,否则可以直接确定两个DOM树不相似。以上两种方法更多是基于DOM树结构,考虑到新闻页面的有效信息在中文文本中。在页面标题的情况下,系统将新获取的网页中文信息与触发前的网页中文信息进行比较。如果只有少量更改,则认为新获取的网页无效,触发器无效;否则,则认为获取的网页是有效的,有效元素XPath存储在XPath模板库中。 2.3 新闻常用网页信息提取模块新闻常用网页信息提取模块的目标是提取新闻常用网页的正文信息。一般新闻网页的正文结构通常比较紧凑,网页中的图片较少,正文代码中的大部分文字占一行,超链接长度所占的百分比也不大。并且由于行块分布算法对主题网页通用性好、准确率高,所以采用行块分布算法。线块分析算法的思想由哈尔滨工业大学信息检索中心陈欣等人提出。网页文本块的起始行块号Xstart和结束行块号Xend的确定必须同时满足以下条件,这里定义Y(X)为带有行号的行块的长度X 为轴。 (1)Ystart> Y(Xt),其中Y(Xt)为线块长度的第一个膨胀点,膨胀点的线块长度必须大于预先定义的阈值。
(2)Y(Xn)不等于0(其中n属于[start+1,start+n]),紧接膨胀点的行块长度不能为0,以消除噪声。
(3)Y(Xm)=0(其中m属于[end,end+1]),下垂点的长度和下垂点后面的行块为0,保证文本结束提取 根据线块分布算法的思想,本文利用Java中的JFreeChart绘制工具得到线块分布函数折线图,如图4。从图4可以看出内容很多阻止[start=743, end =745], [start=749, end=773], [start=1160, end=1165], [start=1198, end=1205],内容块可能有噪音还没有清除。因此,根据消息,针对网页噪音的特点,增加了第四个约束。
(4)Ystart
3 个实验测试
3.1实验准备
测试系统机器环境为:1台台式电脑(CPU为Intel四核2.93GHz,4G内存,硬盘7200r/min,操作系统Win7,10M网速)。本系统采用纯Java实现,有效元素路径存储在MySQL5.5数据库中。为了让结果更有说服力,本文设计了一个轻量级主题爬虫,从知名新闻网站(如腾讯新闻、网易新闻、搜狐新闻、新浪新闻等)中抓取网页作为实验页面放。实验主要测试提取新闻正文信息的正确率和速度,而新闻标题是从网页采集器中提取的(一般导航网页,新闻标题和新闻网址是一起的),这里不做处理。对于动态新闻,提取的文本完全覆盖了真实含义,未过滤的噪声占文本的不到5%才算合格。对于静态网页,本文用准确率来表示建议正文信息的准确率:准确率=正确过滤的页面数/总页面数×100%
3.2 实验结果表1为系统网页正文提取准确率和在线文本提取率,其中每个网站有100个动态网页和静态网页,共1600个网页表1的测试结果表明,该系统提取静态网页的准确率高于93%,对原创新闻网页正文内容的提取较为完整,而动态网页的提取准确率均在80%以上。报错的原因是不同主题的设计风格不一样,并且存在人们对网页中文字定义的差异等因素,本文算法的结果或多或少会受到影响对于正文内容为纯文本的网页,本文算法的准确率非常高。影响本系统准确性的主要因素总结如下: ①动态网页与普通新闻网页的区分是根据网址的相似度和网址是否收录标识符来判断的; ②对于普通新闻网页的正文内容和噪声部分如果网页的主要内容是图片或视频,过短的文本内容会被当作噪声,从而降低提取结果的准确性; ③如果在普通新闻网页中嵌入图片,文字部分之间的距离会相差较大。
4实验结论本文提出的新闻网页正文提取系统采用行阻塞算法提取网页信息和DOM技术,还利用动态网页结构的相似性特征实现*敏*感*词*news网站新闻文字信息抽取。该系统不依赖大量训练集,能够更准确地提取新闻文本信息。实验结果验证了其有效性。但是,对于英文网页和结构复杂的网页,提取效果并不理想,尤其是对于嵌入了图形信息的普通新闻网页。该方法只能提取文本信息,无法获取网页图片。下一步,我们可以在英文网页优化、复杂网页提取算法、网页图片获取方法等方面进行深入研究。