html采集某一个指定页面的文章包括(catid)

优采云 发布时间: 2021-06-16 04:08

  html采集某一个指定页面的文章包括(catid)

  任务:html

  指定页面的采集文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57),数据库字段分别为(标题) , 拇指, 描述, 内容). 数据库

  页面第一张图片是文章缩略图,这里一个是获取缩略图名称并把对应的网站路径添加到数据库的thumb字段中,另一个是下载到本地上传它到指定的文件。文件夹,(虽然貌似软件可以直接ftp,还没搞定,以后会补上)测试

  一、New group--New task网站

  

  二、Add URL + 编辑获取 URL spa 的规则

  

  选择ul中li中的链接,注意排除重复地址,可以点击下方测试网址采集获取。 3d

  

  可以看到采集到达的文章已连接。 htm

  

  三、采集content 规则博客

  我需要采集显示下图中的数据(catid是列id,可以把采集的数据放到对应的列中,设置一个固定值即可) image

  

  关注内容和图片的采集,标题和描述与内容采集it一致

  

  Content采集:

  打开一个采集的文章页面查看源码(f11右键禁用或者view-source:也可以在URL前面查看):

  选择文章开头的一个位置,截取一段,看是否是ctrl+f下的唯一一段。如果能放在下图1的位置,结尾和开头一样。

  不想截取有连接图片的内容才能处理数据,添加--html标签排除--选择确定--确定

  

  还有需要下载页面图片,勾选并填写以下选项

  

  图片采集:

  (1)所选范围与内容一致(文章内图片)

  (2)数据处理选提取第一张图片内容为:

  (3)只要aa.jpg,常规过滤

  

  获取内容:aa.jpg

  (4)database 是带前缀存储的,添加,upload/xxxxx/

  

  找一个页面测试一下,可以看到对应的item都获取到了。

  

  四、 发布内容设置,这里以发布到数据库的方式为例,编辑完成后返回这里查看刚刚定义的模块:

  

  

  五、我需要将图片保存到本地,需要设置保存文件的路径(ftp稍后会尝试使用)。

  

  六、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线