从html中提取有效的文本，经常碰到2种类型

优采云发布时间: 2021-06-19 21:04

　　从html中提取有效文本，经常会遇到两种类型：

　　1、提取特定网页功能的结构化信息

　　一个。检查网站的DOM结构：减少代码冗余，优化上一页。

　　B.结构化信息抽取

　　2、通过网页去噪。

　　一个。使用比较多个网页的文本信息的方法来检测常见字符。较长的常用字符可以看到噪声信息。

　　B.为了提取网页模板的相似度，需要计算两个网页的结构相似度，提取同一个模板去除噪声，比如网站底部的footer部分。

　　c.详细页面特点：

　　(1)更多非锚文本

　　（2) 有很明显的文字段落和更多的标点符号

　　（3)url 结构很长，通过网站分析，这样的网址非常规整，基本在链接结构的最底层

　　d。详细页面去噪特征：

　　（1)多以链接的形式出现，链接到其他相关页面。

　　（2)有很多锚文本，但标点符号很少。锚文本往往是对其他链接页面的解释。

　　(3)Noisy text 比如一些底部模板。

　　然后在从网页中提取文本之前，爬虫会首先识别网页的编码，必要时还会识别网页的语言。

　　如何识别网页的编码：

　　1、从WEB服务器返回的内容类型中提取代码。

　　2、标识网页元信息中的字符编码。如果与内容类型中的编码不一致，以Meta中声明的编码为准。

　　3、如果真的无法确定网页的字符集，那么就需要从返回流来判断，同时必须确定网页使用的语言。

　　这就是为什么我们需要明确网页的编码集，以减少爬虫的判断，提高效率。

　　xmlns

0

2021-06-19

js提取指定网站内容

0 个评论

要回复文章请先登录或注册