如何文章采集(采集某一个指定页面的文章包括(标题、图片、描述、内容) )

优采云 发布时间: 2022-01-01 18:00

  如何文章采集(采集某一个指定页面的文章包括(标题、图片、描述、内容)

)

  任务:

  采集指定页面的文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57), 数据库字段分别是(title, thumb, descrption, content).

  页面上的第一张图片用作文章缩略图。这里一个是获取缩略图的名称并将对应的网站路径添加到数据库的thumb字段中,另一个是本地下载并统一上传。进入指定的文件夹,(当然也可以直接ftp看软件,我还没做,以后补充)

  1、新组--新任务

  

  2、添加网址+修改获取网址的规则

  

  选择ul中li中的链接,注意排除重复地址,可以点击采集下方的测试网址获取。

  

  可以看到采集有一个到文章的链接。

  

  3、采集内容规则

  我需要采集来显示下图中的数据(catid为列id,可以将数据采集放入对应的列并设置固定值)

  

  关注内容和图片采集,标题和描述与内容相同采集

  

  内容采集:

  打开采集的文章的一个页面查看源码(f11右键禁用或者view-source:可以在URL前面加):

  选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。

  我截取了内容,不想里面有链接图片进行数据处理,添加--html标签排除--选择确定--确定

  

  还有需要下载页面图片,勾选并填写以下选项

  

  图片采集:

  (1)选择范围与内容相同(文章内图)

  (2)提取第一张图片的数据处理选项。内容为:

  (3)只要aa.jpg,常规过滤

  

  获取内容:aa.jpg

  (4)数据库存放有前缀,添加,上传/xxxxx/

  

  找一个页面测试一下,可以看到对应的item都获取到了。

  

  4、发布内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看刚刚定义的模块:

  

  

  5、我需要把图片保存到本地,还要设置保存文件的路径(ftp以后会尝试使用)。

  

  6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线