excel vba 网页数据抓取(Java自定义抓取方式(6)-上海怡诺唐咨询)

优采云 发布时间: 2021-09-13 05:09

  excel vba 网页数据抓取(Java自定义抓取方式(6)-上海怡诺唐咨询)

  自定义爬取方法包括“从页面中提取数据”、“从浏览器中提取数据”和“生成数据”三部分。

  1、从页面中提取数据

  

  (1)抓取元素的指定属性值:先选择InnerHtml和OuterHtml检查要提取的属性值是否存在,然后选择捕获元素的指定属性值。比如在流行的源码,id,class,href是A标签的属性,在下拉选项中选择要提取的属性名称,提取该属性的属性值,演示如下:

  

  (2)Grab text:提取网页显示的内容,可见的文字信息。

  (3)Capture 地址:一般用于抓取图片地址或Iframe地址。首先字段的Xpath定位IMG标签或Iframe标签,提取src属性值。

  (4)抓取选中项的文本:尝试用圆形下拉框提取当前选中项的文本

  (5)抓取该元素的OuterHtml和InnerHtml:提取网页源代码

  (6)抓取取值:一般用于抓取输入框内的文本。首先字段的Xpath定位输入标签,提取取值值。演示如下:

  

  (7)抢超链接:首先,字段的Xpath定位A标签,从A标签中提取href的属性值,演示如下:

  

  2、从浏览器中提取数据

  

  (1)page URL:同添加其他特殊字段爬取当前页面URL效果

  (2)page title: 同添加其他特殊字段抓取当前页面的标题效果

  (从页面源码中抓取的3):在网页源码中可以直接使用正则表达式提取匹配的数据

  3、生成数据

  

  (1) 生成定值:同添加其他特殊字段生成定值效果,常用于设置发帖到网站时发帖的用户名、发帖到版块等固定字段

  (2)使用当前时间:同添加其他特殊字段使用当前时间效果,用于记录采集时间,此设置可能导致优采云采集器去重功能检测失败

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线