采集某一个指定页面的文章包括(标题、图片、描述、内容)

优采云 发布时间: 2021-08-22 05:53

  采集某一个指定页面的文章包括(标题、图片、描述、内容)

  任务:

  采集文章指定页面收录(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57),数据库字段分别为(title,拇指、描述、内容)。

  页面第一张图片是文章缩略图,这里一个是获取缩略图名称并将对应的网站路径添加到数据库的thumb字段中,另一个是下载到本地上传到指定文件夹. ,(当然可以根据软件直接ftp,我还没做,以后补充)

  1、New group--新任务

  

  2、添加网址+修改获取网址的规则

  

  选择ul中li中的链接,注意排除重复地址,可以点击下方测试网址采集获取。

  

  你可以看到采集的文章链接。

  

  3、采集content 规则

  我需要采集显示下图中的数据(catid是列id,可以把采集的数据放到对应的列中,设置一个固定值即可)

  

  关注内容和图片的采集,标题和描述与内容采集一致

  

  Content采集:

  打开一个采集文章页面查看源码(禁止右键f11或者查看源代码:可以在网址前加):

  选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。

  不想截取带有可用于数据处理的链接图片的内容,添加--html标签排除--选择确定--确定

  

  还有需要下载页面图片,勾选并填写以下选项

  

  图片采集:

  (1)所选范围与内容一致(文章内图片)

  (2)数据处理选提取第一张图片内容为:

  (3)只要aa.jpg,常规过滤

  

  获取内容:aa.jpg

  (4)database 是带前缀存放的,加进去,upload/xxxxx/

  

  找到一个页面并测试它。可以看到对应的物品都获得了。

  

  4、Publishing 内容设置,这里以发布到数据库的方式为例,编辑完后返回这里查看刚刚定义的模块:

  

  

  5、我需要把图片保存到本地,还要设置保存文件的路径(ftp以后会尝试使用)。

  

  6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线