插入关键字 文章采集器(优采云采集器的采集方法及步骤(一)_数据分析采集器)
优采云 发布时间: 2021-12-25 07:05插入关键字 文章采集器(优采云采集器的采集方法及步骤(一)_数据分析采集器)
用途:用于数据分析
使用工具:优采云采集器(优采云采集器是一款互联网数据采集、处理、分析、挖掘软件。)
二、采集方法步骤说明####
第一步:安装优采云采集器(注意:需要安装net4.0框架才能运行)
优采云采集器 下载链接:
第二步:注册账号
第三步:了解基本界面
一个。单击开始 -> 新建文件夹(并重命名它以便您知道 采集 是什么)-> 新建任务
湾 创建新任务后,会弹出设置任务规则的对话框(注意以下几点)
(1)填写你想要的内容所在的网址采集。如果是正规的,可以使用【添加向导】相关规则,如下:以短书为例,我要< @采集自己分析了短书里面的内容数据,采集的主要内容在列表页,但是因为短书采用了懒加载的方式,无法抓取翻页的内容,所以需要查看源码(这里需要有一定代码知识的童鞋才能找到),然后在源码中,找到相关的链接,而且都是有规律的,所以我可以通过添加相关规则【添加向导】。具体规则继续看以下步骤4.
向导添加界面:
第 4 步:编写 URL 提取规则
我在源代码中找到了列表链接。如果你想采集所有的链接,你必须找到所有的翻页。翻页是正常的,所以我得到以下规则。只是链接中“page=”后面的地址参数改变了,所以我们可以用【地址参数】来设置参数。然后在[地址参数]中选择数字变化,因为它是一个数字。总共有14个项目,所以有14个项目。
设置好地址格式后,我们可以在这个页面进一步设置我们想要的采集的内容。即我们需要在列表页采集上传递每个文章的URL,方法如下:
(1)获取内容URL时,选择获取方式:自动获取地址链接。
(2)使用链接过滤:提取文章链接,文章的链接有共性。
填好这些后,点击【URL采集Test】,这时候就可以验证规则是否正确了。
验证OK!规则是对的!伟大的!写好规则后记得保存哦!
第五步:编写内容抽取规则
采集到达每个文章的URL后,接下来我们需要采集每个文章的相关信息:标题、URL、阅读数、点赞数!这是我们的终极目标!写好规则后记得保存哦!方法如下图所示:
PS:这也需要一些html代码的知识。
添加规则如下:
(1)在标签列表中将标签名称添加到采集。方框右侧有一个“+”可以添加多个标签。
(2)数据获取方式选择:从源码中获取数据,选择提取方式“截取前后”,然后在源码中提取我们想要的信息的前后码。记住,如果这是唯一的代码,避免提取它出现问题。
补充:教你提取前后码
在网页中,右击查看源代码。找到标题。我们会发现有多个重复的标题。但是要选择code前后的唯一一个,可以通过ctrl+f来验证是否唯一。下面是标题前后的代码,剩下几个元素前后的代码,大家可以自己练习。
第六步:设置存储位置
点击内容发布规则——>另存为本地文件——>启用本地文件保存——>保存设置文件格式并选择txt(因为我们使用的是免费软件)——>设置保存位置
第七步:启动采集,设置存储位置和设置规则,保存退出,返回工具首页,启动采集——> 这3个地方一定要勾选,然后右键——单击以选择 — —> 开始。见下文:
采集 后呈现原创数据:
呈现清洗后的数据及相关数据分析,如下图所示:
三、个人经历总结####