【8分钟课堂】提取数据-自定义抓取方法
优采云 发布时间: 2020-08-10 09:31本视频介绍提取数据中的自定义抓取形式,收录以下三种:
1、从页面中提取数据
抓取元素的指定属性值(如: ,可选择只抓取sku这个属性的值)
抓取文本 (比较常用,提取网页中展示的内容,可见的文字信息)
抓取地址 (要采集的是图片就会出现该选项。多用于采集图片的链接,即IMG标签的srs属性值)
抓取超链接 (要采集的是链接才能出现该选项。用于采集某个按键的超链接,即数组的xpath定位到的是A标签,从A标签中的href属性值)
抓取值 (一般用于抓取输入框的文字,首先数组的xpath定位到的是input标签,提取其中的value值)
抓取这个元素的InnerHtml和OuterHtml (提取网页源码)
2、从浏览器提取数据
页面网址:同添加其他特殊数组中的抓取当前页面的网址疗效
页面标题:同添加其他特殊数组中的抓取当前页面的标题疗效
从页面源码里抓取:可直接用正则表达式提取网页源码里匹配到的数据
3、生成数据
生成固定的值:同添加其他特殊数组中的生成固定值疗效,常用于标记个别固定不变的信息
使用当前时间:同添加其他特殊数组中的使用当前时间疗效,用于记录采集时间,此设置有可能会造成优采云采集器去重功能检查失效