从html中提取有效的文本,经常碰到2种类型

优采云 发布时间: 2021-06-19 21:04

  从html中提取有效的文本,经常碰到2种类型

  从html中提取有效文本,经常会遇到两种类型:

  1、 提取特定网页功能的结构化信息

  一个。检查网站的DOM结构:减少代码冗余,优化上一页。

  B.结构化信息抽取

  2、 通过网页去噪。

  一个。使用比较多个网页的文本信息的方法来检测常见字符。较长的常用字符可以看到噪声信息。

  B.为了提取网页模板的相似度,需要计算两个网页的结构相似度,提取同一个模板去除噪声,比如网站底部的footer部分。

  c.详细页面特点:

  (1)更多非锚文本

  (2) 有很明显的文字段落和更多的标点符号

  (3)url 结构很长,通过网站 分析,这样的网址非常规整,基本在链接结构的最底层

  d。详细页面去噪特征:

  (1)多以链接的形式出现,链接到其他相关页面。

  (2)有很多锚文本,但标点符号很少。锚文本往往是对其他链接页面的解释。

  (3)Noisy text 比如一些底部模板。

  然后在从网页中提取文本之前,爬虫会首先识别网页的编码,必要时还会识别网页的语言。

  如何识别网页的编码:

  1、从WEB服务器返回的内容类型中提取代码。

  2、 标识网页元信息中的字符编码。如果与内容类型中的编码不一致,以Meta中声明的编码为准。

  3、如果真的无法确定网页的字符集,那么就需要从返回流来判断,同时必须确定网页使用的语言。

  这就是为什么我们需要明确网页的编码集,以减少爬虫的判断,提高效率。

  xmlns

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线