使用优采云采集新浪博客文章采集器分类日期

优采云 发布时间: 2021-06-11 20:43

  使用优采云采集新浪博客文章采集器分类日期

  文档介绍:新浪博客文章采集

  新浪博客有很多博主,会发很多高质量的文章。有时候,有些朋友看到这些文章后就想采集,但是文章的一篇文章效率太高,复制慢,这个时候我们该怎么办?使用优采云采集器,只需要制定规则,我们就可以自动下载我们想要的文章采集。

  本文介绍优采云采集每日博客文章的使用方法。

  采集网站:

  采集的内容包括:博客文章正文、标题、标签、类别和日期。

  第一步:创建新浪博客文章采集task

  进入主界面,选择“自定义采集”

  2)将采集的网址复制粘贴到网站输入框中,点击“保存网址”

  第 2 步:创建翻页循环

  1) 打开网页后,打开右上角的工艺按钮,*敏*感*词*可见。点击页面底部的“Next Page”,如图,选择“Cycle Click on a Single Link”,就创建了翻页循环。 (可以手动点击流程左上角的“循环页面”和“点击翻页”几次,测试页面是否正常翻页。)

  2)因为进入详情页时网页加载很慢,URL一直处于圆形状态,无法立即执行下一步,所以在“高级选项”中设置“ajax加载数据”循环页面”,设置超时时间为5秒,点击“确定”。

  第 3 步:创建一个列表循环

  鼠标点击列表目录中的第一篇博文,在操作提示框中选择“全选”。

  鼠标点击“点击循环中的每个链接”,就会创建列表循环,进入第一个循环项的详情页面。

  由于进入详情页时网页加载缓慢,导致网址一直处于圆圈状态,无法立即执行下一步。因此,在“点击元素”的高级选项中设置“ajax加载数据”,将AJAX超时设置为3秒。点击“确定”。

  3)数据提取,然后采集具体字段,分别选择页面标题、标签、类别、时间,点击“采集元素的文本”,在上面的过程中修改字段名.

  单击文本所在的位置,然后单击提示框右下角的图标以扩大选项范围,直到收录所有文本。 (作者用2次点击测试,全部收录)

  同时选择“采集元素的文本”,修改字段名,数据提取完成。

  4)由于网站网页加载很慢,可以在流程的每一步的高级选项中设置“等待前执行”几秒,这样也可以避免反采集 访问页面更快。设置好后点击“确定”。

  第四步:新浪博客数据采集并导出

  1)点击左上角的“保存”,然后点击“开始采集”。

  选择“开始本地采集”

  采集完成后会弹出提示,选择“导出数据”,选择“合适的导出方式”,导出采集好数据。这里我们选择excel作为导出格式。这时,新浪博客数据被导出了,导出的数据如下图

  相关采集tutorial:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线