网页内容抓取工具(Java自定义抓取方式（6）-上海怡诺唐咨询)

优采云发布时间: 2021-11-21 09:22

　　自定义爬取方法包括“从页面中提取数据”、“从浏览器中提取数据”和“生成数据”三部分。

　　1、从页面中提取数据

　　(1）抓取元素的指定属性值：先选择InnerHtml和OuterHtml，检查要提取的属性值是否存在，然后选择捕获元素的指定属性值。例如，在流行的源码，id、class和href是A标签的属性，从下拉选项中选择要提取的属性名，提取该属性的属性值，演示如下：

　　(2）抓取文本：提取网页上显示的内容，可见的文本信息。

　　(3）抓图地址：一般用于抓图地址或Iframe地址，首先字段的Xpath定位到IMG标签或Iframe标签，提取src属性值。

　　(4）抓取选中项的文本：尝试用圆形下拉框提取当前选中项的文本

　　(5）抓取该元素的OuterHtml，InnerHtml：提取网页源码

　　(6）抓取值：一般用于抓取输入框的文本，首先通过字段的Xpath定位输入标签，并提取出value值。演示如下：

　　(7）获取超链接：首先通过字段的Xpath定位A标签，从A标签中提取href的属性值，演示如下：

　　2、从浏览器中提取数据

　　(1）页面URL：同添加其他特殊字段爬取当前页面URL效果

　　(2）页面标题：同添加其他特殊字段抓取当前页面的标题效果

　　(3）从页面源代码中抓取：可以直接使用正则表达式在网页源代码中提取匹配的数据

　　3、生成数据

　　(1）生成固定值：同添加其他特殊字段产生固定值效果，常用于发布时设置发布用户名网站，发布到固定字段如部分。

　　(2）使用当前时间：同添加其他特殊字段使用当前时间效果，用于记录采集时间，此设置可能导致优采云采集器去重功能检测失败

0

2021-11-21

网页内容抓取工具

0 个评论

要回复文章请先登录或注册