内容采集(优采云采集器采集文章使用教程实例任务:采集某一个指定页面)

优采云 发布时间: 2021-11-07 21:25

  内容采集(优采云采集器采集文章使用教程实例任务:采集某一个指定页面)

  请注意,排除重复地址。可以点击下方获取测试网址采集。可以看到采集里面有文章的链接。?3、采集我需要的内容规则采集下图所示的数据(catid为列id,可以将采集中的数据放入对应的列中,并设置一个固定值)。重点看内容和图片采集,标题和描述是一样的 内容采集内容采集:打开采集的一个文章页面查看源码(f11用右键禁止或在URL前添加view-source:?即可查看) : 选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。不想截取链接图片的内容可以通过数据处理,添加--html标签排除-选择确定-确定?还有需要下载页面图片,勾选并填写以下选项吗?图片采集:(1)选择范围与内容相同(文章内图)(2)数据处理选择提取第一张图片?内容为: /2017/33/aa.jpg(3)只要aa.jpg,正则过滤,得到内容:aa.jpg(4)数据库存前缀,添加,上传/ xxxxx/找个页面测试,可以看到对应的item都获取到了?4、发布内容设置,这里以发布到数据库的方式为例,编辑完后,回到这里查看新定义的模块:?? 5、 我需要把图片保存在本地,需要在设置下保存文件的路径(ftp以后会尝试使用)?保存6、,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,也可以在数据库里查看到。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线