网页内容抓取工具(Java自定义抓取方式(6)-上海怡诺唐咨询)
优采云 发布时间: 2021-11-21 09:22网页内容抓取工具(Java自定义抓取方式(6)-上海怡诺唐咨询)
自定义爬取方法包括“从页面中提取数据”、“从浏览器中提取数据”和“生成数据”三部分。
1、从页面中提取数据
(1) 抓取元素的指定属性值:先选择InnerHtml和OuterHtml,检查要提取的属性值是否存在,然后选择捕获元素的指定属性值。例如,在流行的源码,id、class和href是A标签的属性,从下拉选项中选择要提取的属性名,提取该属性的属性值,演示如下:
(2)抓取文本:提取网页上显示的内容,可见的文本信息。
(3)抓图地址:一般用于抓图地址或Iframe地址,首先字段的Xpath定位到IMG标签或Iframe标签,提取src属性值。
(4) 抓取选中项的文本:尝试用圆形下拉框提取当前选中项的文本
(5)抓取该元素的OuterHtml,InnerHtml:提取网页源码
(6) 抓取值:一般用于抓取输入框的文本,首先通过字段的Xpath定位输入标签,并提取出value值。演示如下:
(7)获取超链接:首先通过字段的Xpath定位A标签,从A标签中提取href的属性值,演示如下:
2、从浏览器中提取数据
(1)页面URL:同添加其他特殊字段爬取当前页面URL效果
(2)页面标题:同添加其他特殊字段抓取当前页面的标题效果
(3)从页面源代码中抓取:可以直接使用正则表达式在网页源代码中提取匹配的数据
3、生成数据
(1) 生成固定值:同添加其他特殊字段产生固定值效果,常用于发布时设置发布用户名网站,发布到固定字段如部分。