火车采集器系列教程 之 使用正则采集链接

优采云 发布时间: 2020-05-15 08:01

  

  火车采集器系列教程 之 使用正则采集网址 图片版 先来瞧瞧这段加密后代码 <a href=";s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4" target="_blank">蔡依林</a> 生成之后可以正常访问的联接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 而我们能获取到却难以访问的链接是: ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=蔡依林&z=4 经过对比我们可以看出,两个链接只有 从 word=到&这之间的代码不一样,我们还可以看出,之间的代码恰好对应 蔡依林 这个链接的标题,我们可以想,如果我们可以把这之间的乱码用这段链接的标题来取代或则说替换,那不就完全一样了吗? 是的,我们完全可以借助正则来采集这样的网站地址! 列表地址: 在页面链接的采集方法这儿,我们有两个选择,一个是自动填写链接地址规则,一个是启动向导添加,进入正则提取!以下火车采集器 正则提取,我们两种方式都一并讲解! 列车采集器系列教程 之 使用正则采集链接 一 下面,启动我们的列车,建立一个站点,建立一个任务! 自动添加模式1,打开自动添加模式之后,我们先设置禁用系统手动辨识联接,启用自定义联接格式 火车采集器系列教程 之 使用正则采集网址 图片版 2,修改我们的正则规则如下: <a href="(*)" target="_blank">[参数]</a> 这里, <a href=" 的作用是取固定字符在确定联接所在区域,设定参数为我们想获取的目标内容。

   实际联接设置为正确的可以访问的链接前部份 ;s=1&ct=201326592&cl=2&lm=-1&tn=baiduimage&word=[参数 1]&pic=1 这里的参数 1表示它就是获取的参数,如果你想在其它地方再使用,可以继续使用到参数 N,不过你要注意了,如果你要获取多个参数,这里复杂了,请注意下边这张图片: 假如你要获取多个参数火车采集器 正则提取,请注意她们出现的位次,在引用过程中,也要注意位次,不然会出现参数值传递错误!同时,你可以将[参数 N]修改为你想获取的参数。 在这里,如果有缩略图,我们也可以加上缩略图,也可以下载!将缩略图标签替换图片地址就可以了! 向导添加信正则提取模式 在源地址处添加我们要采集的列表地址 进一步设置正则参数,这里的参数就和我们刚才说过的就是一模一样的了,这两种模式方式一样,但也适用于采集不同地址的列表,就看你们的喜好了! 设置完成之后就可以提取地址并完了! 火车采集器系列教程 之 使用正则采集网址 图片版 以下展示一下我们采集到的地址: 好了,经过比较长时间的制做,这份文档加图片的教程就制做得差不多了,现在是早上两点,应该休息了! 剩下的视频部份,就等今天来完成吧!最后,感谢你们对火车头的支持,3Q and 88 本文没有来得急校对,如果出现错误的地方欢迎你们修正!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线