火车头采集器采集文章使用教程实例

优采云 发布时间: 2020-04-23 11:03

  

  选择范围在 ul 里面的 li 里面的链接,注意排除重复地址,可以点击下边测试网址采集获取。

  

  可以见到有采集到的文章链接了。

  

  3、采集内容规则

  我那边须要采集下面图上展示数据(catid是栏目id,可以将采集到的数据装入对应栏目,设置固定值就好)

  

  着重说下内容和图片的采集,标题和描述同理内容采集

  

  内容采集:

  打开一个采集的文章页面,查看源代码(禁了右键的f11 或者在网址后面加上 view-source:一样可以查看):

  选中文章开头一个位置,截取一段在ctrl+f 搜下是否惟一一段,若是就可以放到位置右图1处,结尾同开头一样。

  我截取内容不想上面还带有链接图片可以数据处理,添加--html标签排除--选好确定--确定

  

  还有须要下载页面图片火车头文章采集,勾选和填写下边选项

  

  图片采集:

  (1)选中范围和内容一样(文章内图片)

  (2)数据处理选 提取第一张图片 内容是:

  (3)只要aa.jpg,正则过滤

  

  ,获取内容:aa.jpg

  (4)数据库储存有前缀,添加上, upload/xxxxx/

  

  找一个页面测试一下,可以看见对应项目都获取到了。

  

  4、发布内容设置火车头文章采集,这里以形式三发布到数据库为反例,编辑后回到那边勾选刚定义的模块就好:

  

  

  5、我需要保存图片到本地,要设置下保存文件的路径(ftp后续会试着使用)。

  

  6、保存,查看刚新建的任务,右键 开始任务运行,这边就可以看见文字和图片都下载出来了,数据库上面也可以见到了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线