从html中提取有效的文本,经常碰到2种类型
优采云 发布时间: 2021-06-19 21:04从html中提取有效的文本,经常碰到2种类型
从html中提取有效文本,经常会遇到两种类型:
1、 提取特定网页功能的结构化信息
一个。检查网站的DOM结构:减少代码冗余,优化上一页。
B.结构化信息抽取
2、 通过网页去噪。
一个。使用比较多个网页的文本信息的方法来检测常见字符。较长的常用字符可以看到噪声信息。
B.为了提取网页模板的相似度,需要计算两个网页的结构相似度,提取同一个模板去除噪声,比如网站底部的footer部分。
c.详细页面特点:
(1)更多非锚文本
(2) 有很明显的文字段落和更多的标点符号
(3)url 结构很长,通过网站 分析,这样的网址非常规整,基本在链接结构的最底层
d。详细页面去噪特征:
(1)多以链接的形式出现,链接到其他相关页面。
(2)有很多锚文本,但标点符号很少。锚文本往往是对其他链接页面的解释。
(3)Noisy text 比如一些底部模板。
然后在从网页中提取文本之前,爬虫会首先识别网页的编码,必要时还会识别网页的语言。
如何识别网页的编码:
1、从WEB服务器返回的内容类型中提取代码。
2、 标识网页元信息中的字符编码。如果与内容类型中的编码不一致,以Meta中声明的编码为准。
3、如果真的无法确定网页的字符集,那么就需要从返回流来判断,同时必须确定网页使用的语言。
这就是为什么我们需要明确网页的编码集,以减少爬虫的判断,提高效率。
xmlns