excel vba 网页数据抓取(Java自定义抓取方式(6)-上海怡诺唐咨询)
优采云 发布时间: 2021-09-13 05:09excel vba 网页数据抓取(Java自定义抓取方式(6)-上海怡诺唐咨询)
自定义爬取方法包括“从页面中提取数据”、“从浏览器中提取数据”和“生成数据”三部分。
1、从页面中提取数据
(1)抓取元素的指定属性值:先选择InnerHtml和OuterHtml检查要提取的属性值是否存在,然后选择捕获元素的指定属性值。比如在流行的源码,id,class,href是A标签的属性,在下拉选项中选择要提取的属性名称,提取该属性的属性值,演示如下:
(2)Grab text:提取网页显示的内容,可见的文字信息。
(3)Capture 地址:一般用于抓取图片地址或Iframe地址。首先字段的Xpath定位IMG标签或Iframe标签,提取src属性值。
(4)抓取选中项的文本:尝试用圆形下拉框提取当前选中项的文本
(5)抓取该元素的OuterHtml和InnerHtml:提取网页源代码
(6)抓取取值:一般用于抓取输入框内的文本。首先字段的Xpath定位输入标签,提取取值值。演示如下:
(7)抢超链接:首先,字段的Xpath定位A标签,从A标签中提取href的属性值,演示如下:
2、从浏览器中提取数据
(1)page URL:同添加其他特殊字段爬取当前页面URL效果
(2)page title: 同添加其他特殊字段抓取当前页面的标题效果
(从页面源码中抓取的3):在网页源码中可以直接使用正则表达式提取匹配的数据
3、生成数据
(1) 生成定值:同添加其他特殊字段生成定值效果,常用于设置发帖到网站时发帖的用户名、发帖到版块等固定字段