文章采集规则(优采云采集规则是什么,怎么样设置优采云内容(title))

优采云 发布时间: 2021-10-23 09:13

  文章采集规则(优采云采集规则是什么,怎么样设置优采云内容(title))

  优采云采集优采云采集的规则是什么以及如何设置?

  前沿:如果你对优采云一无所知,你应该去网上学习一些优采云采集的知识。我也不是高手。这里就不教大家采集的规则怎么写了,因为写的种类太多了,不知道大家问我,优采云的相关文件夹里提供的发布接口内置马甲发布文章,支持远程抓图定位,发布文章时间设置(10-70分钟随机)。用户只需要关注优采云的标题和内容,参数值标题(title),内容(content)。

  优采云采集器采集文章 教程示例

  任务:

  采集指定页面的文章包括(标题、图片、描述、内容)导入到自己的网站数据库对应列(列id为57),数据库字段分别是(标题、拇指、描述、内容)。

  页面第一张图片是文章的缩略图,这里获取缩略图的名称并将对应的网站路径添加到数据库的thumb字段中,另一个是本地下载并上传到指定的文件。文件夹,(当然也可以直接ftp看软件,我还没弄,以后补上)

  1、新组--新任务

  

  2、添加URL + 编辑获取URL的规则

  

  选择ul中li中的链接,注意排除重复地址,可以点击采集下方的测试网址获取。

  

  可以看到有一个从采集到文章的链接。

  

  3、采集内容规则

  我需要采集来显示下图中的数据(catid是列id,可以把采集中的数据放到对应的列中并设置一个固定值)

  

  关注内容和图片采集,标题和描述与内容采集一致

  

  内容采集:

  打开采集的文章页面查看源码(禁用右键f11或在URL前面添加view-source:查看):

  选择文章开头的一个位置,截取一段,看是不是ctrl+f下的唯一一段。如果是,可以放在下图1所示的位置,结尾和开头一样。

  不想截取带有数据可以处理的链接图片的内容,添加--html标签排除-选择确定-确定

  

  还有需要下载页面图片,勾选并填写以下选项

  

  图片采集:

  (1)选择范围与内容相同(文章中的图片)

  (2)选择数据处理的第一张图片内容为:

  (3)只要aa.jpg,定期过滤

  

  , 获取内容:aa.jpg

  (4) 数据库存放有前缀,添加,upload/xxxxx/

  

  找个页面测试一下,可以看到对应的项目都获取到了。

  

  4、 发布内容设置,这里是方法三中发布到数据库的例子,编辑完后回到这里查看刚刚定义的模块:

  

  

  5、我需要将图片保存到本地,需要设置保存文件的路径(ftp稍后会尝试使用)。

  

  6、保存,查看新创建的任务,右键启动任务,可以看到这里下载了文字和图片,在数据库中可以看到。

  

  你可能喜欢下面的文章?

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线