无规则采集器列表算法(优采云采集器使用工具采集器采集方法说明步骤及步骤说明)

优采云 发布时间: 2021-09-04 13:09

  无规则采集器列表算法(优采云采集器使用工具采集器采集方法说明步骤及步骤说明)

  目的:用于数据分析

  使用工具:优采云采集器(优采云采集器是一款互联网数据采集、处理、分析、挖掘软件。)

  二、采集方法和步骤说明

  第一步:安装优采云采集器(注意:需要安装net4.0框架才能运行)

  优采云采集器下载链接:

  第 2 步:注册帐户

  第三步:了解基本界面

  一个。点击开始 -> 创建一个新文件夹(并重命名它以便你知道采集 是什么) -> 创建一个新任务

  B.创建新任务后,会弹出设置任务规则的对话框(注意以下几点)

  (1)填写你想要采集的内容所在的URL。如果是常规的,可以使用【添加向导】相关规则,如下:以简书为例,我要采集自己简书内容数据与分析采集的主要内容在列表页,但是因为短书采用了懒加载的方式,无法采集翻页的内容,所以需要查看源代码(这里需要了解一些代码知识只有童鞋才能找到),然后在源代码中找到相关的链接,而且是正规的,所以我可以通过【添加向导】添加相关规则。对于具体规则,继续看以下步骤4.

  向导添加界面:

  第 4 步:编写 URL 提取规则

  我在源代码中找到了列表链接。如果你想要采集所有的链接,你必须找到所有的翻页。翻页是有规律的,所以我得到了以下规则。只有链接中“page=”后面的地址参数改变了,所以我们可以使用【地址参数】来设置参数。然后在[地址参数]中选择数字变化,因为它是一个数字。一共有14个项目,所以有14个项目。

  设置地址格式后,我们可以在这个页面进一步设置我们想要的采集。即我们需要传递列表页的URL采集each文章,方法如下:

  (1)获取内容URL时,选择获取方式:自动获取地址链接。

  (2)使用链接过滤:提取文章链接,文章链接有共性。

  这些填好后点击【URL采集TEST】,此时可以验证规则是否正确。

  验证OK!规则是对的!伟大的!规则写好后记得保存!

  第五步:编写内容抽取规则

  采集到达每篇文章的网址文章后,我们就需要采集each文章的相关信息:标题、网址、阅读数、点赞数!这是我们的终极目标!规则写好后记得保存哦!方法如下图所示:

  PS:这也需要一些html代码的知识。

  添加规则如下:

  (1)在标签列表中添加采集的标签名称,方框右侧有一个“+”可以添加多个标签。

  (2)数据获取方式选择:从源码中获取数据,提取方式选择“截取前后”,然后在源码中提取我们想要的信息的前后码。记住, 如果是唯一的代码,避免提取出错。

  补充:教你提取前后代码

  在网页中,右击查看源代码。找到标题。我们会发现有多个重复的标题。但是要选择code前后的唯一一个,可以通过ctrl+f验证是否唯一。下面是标题前后的代码,剩下几个元素前后的代码,大家可以自己练习。

  第六步:设置存储位置

  点击内容发布规则——>另存为本地文件——>启用本地文件保存——>保存设置文件格式选择txt(因为我们使用的是免费软件)——>设置保存位置

  第七步:启动采集,设置存储位置和设置规则,保存退出,返回工具首页,启动采集——>这3个地方一定要勾选,然后右键选择—— >开始。见下图:

  采集之后的初步数据:

  呈现清洗后的数据及相关数据分析,见下图:

  三、个人经历总结

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线