任意网页文章内容提取(采集)算法标签:采集程序开发

优采云 发布时间: 2021-03-25 03:33

  任意网页文章内容提取(采集)算法标签:采集程序开发

  任意网页文章内容提取(采集)算法

  标签:采集程序开发2014-04-09 19:10星期三

  完成采集的任何人都知道,如果您想要采集一个网站,则必须基于网站的结构编写一个正则。这是最传统的方法。这种方法的优点是可以完成采集的精度。要非常详细,您可以采集具有网站的任何结构,但是这种方法也非常有限。一组规则只能用于一个网站,并且在网站的结构发生变化时需要重新分析。调整规则是非常被动的。

  我一直在想,如果该程序可以像人一样被识别,则它可以是采集任何网站个文本内容。我在Internet上找到了它,并且已经有很多类似的算法,主要有以下几种:

  1、基于Dom树

  1),使用开源软件包HTML Tidy处理HTML并更正错误或不规则之处;

  2),基于更加标准化的HTML构建Dom树,然后递归遍历该Dom树,比较并标识各种非文本信息,包括广告,链接组和非重要节点信息;广告信息删除:需要建立定期更新的广告服务器列表;链接组删除:计算网页收录的链接数与非链接词数的比值;

  3)。删除非文本信息后,Dom树中的其余内容就是文本信息,直接来自其余树部分

  从点中提取。

  存在问题:Dom树的建立需要高度格式正确的HTML,并且树的建立和遍历时空

  复杂度很高,并且树遍历方法也随HTML标签而变化。

  2、基于页面细分查找正文块

  1)。正确分割网页后,将文本提取简化为对文本块的判断;

  2),分段是在HTML标签和一些视觉信息(例如文本颜色,字体大小,文本信息等)中使用分隔符。

  存在问题:网站不同的HTML样式非常不同,没有统一的分段方法,并且难以保证*敏*感*词*性。

  3、基于标签窗口

  1),先删除文章标题;

<p>2),这两个标签以及它们中收录的文本一起称为标签窗口(例如,文本中的文本是标签窗口中的文本),取出标签窗口中的所有文本;

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线