网页内容抓取工具(Java自定义抓取方式(6)-上海怡诺唐咨询)

优采云 发布时间: 2021-11-21 09:22

  网页内容抓取工具(Java自定义抓取方式(6)-上海怡诺唐咨询)

  自定义爬取方法包括“从页面中提取数据”、“从浏览器中提取数据”和“生成数据”三部分。

  1、从页面中提取数据

  

  (1) 抓取元素的指定属性值:先选择InnerHtml和OuterHtml,检查要提取的属性值是否存在,然后选择捕获元素的指定属性值。例如,在流行的源码,id、class和href是A标签的属性,从下拉选项中选择要提取的属性名,提取该属性的属性值,演示如下:

  

  (2)抓取文本:提取网页上显示的内容,可见的文本信息。

  (3)抓图地址:一般用于抓图地址或Iframe地址,首先字段的Xpath定位到IMG标签或Iframe标签,提取src属性值。

  (4) 抓取选中项的文本:尝试用圆形下拉框提取当前选中项的文本

  (5)抓取该元素的OuterHtml,InnerHtml:提取网页源码

  (6) 抓取值:一般用于抓取输入框的文本,首先通过字段的Xpath定位输入标签,并提取出value值。演示如下:

  

  (7)获取超链接:首先通过字段的Xpath定位A标签,从A标签中提取href的属性值,演示如下:

  

  2、从浏览器中提取数据

  

  (1)页面URL:同添加其他特殊字段爬取当前页面URL效果

  (2)页面标题:同添加其他特殊字段抓取当前页面的标题效果

  (3)从页面源代码中抓取:可以直接使用正则表达式在网页源代码中提取匹配的数据

  3、生成数据

  

  (1) 生成固定值:同添加其他特殊字段产生固定值效果,常用于发布时设置发布用户名网站,发布到固定字段如部分。

  (2)使用当前时间:同添加其他特殊字段使用当前时间效果,用于记录采集时间,此设置可能导致优采云采集器去重功能检测失败

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线