分享:优采云采集头条文章采集规则使用说明!【汇总篇】

优采云 发布时间: 2022-10-30 06:23

  分享:优采云采集头条文章采集规则使用说明!【汇总篇】

  陶小白的优采云采集规则写了很久,很多朋友都在用。由于用户群不同,部分用户对优采云不熟悉,会造成很多问题。今天为大家总结一些常见问题,一起总结教程!

  1. 优采云

  优采云使用高铁版或者使用付费版,免费版不能使用,只能使用V9以上版本。如果您没有高铁版本并下订单,请联系我,我会发给您一份。高铁版免安装。打开后,只需输入用户名和密码即可登录。

  2. 优采云 规则导入

  拿到采集规则的朋友,先导入规则,在B站导入视频教程,到这里查看:教程传送门

  3. 饼干更换

  获取规则后,先用自己的cookies替换。规则中的 cookie 是很久以前的,可能已经过期。cookie替换视频教程也在B站。 去这里:教程传送门

  除了视频版,还有文字版批量添加。教程在这里:文字教程传送门

  4.数据处理问题

  

  有的朋友拿到规则后说采集的数据我不要html代码,可以删除吗?是的,在内容 采集 标记中,只需删除所有 html 代码。这是优采云的基本操作,需要自己去学习。

  你可以在这里查看相关教程:教程1传送门教程2传送门

  5. 优采云 发布问题

  优采云 可以在本地发布,也可以发布到 网站。发布到网站时,需要配置发布模块。配置发布模块后,即可在线发布。

  6. 优采云请求速度问题

  今日头条搜索词的采集规则只能在单线程中以3-5秒的间隔运行。如果需要多线程,需要挂多台电脑运行,优采云的请求速度不建议调整,按照我的默认速度比较稳定,测试了很久。

  7.定时任务,定时任务

  

  挂机采集,定时任务设置教程,在B站看视频:教程传送门

  8.采集启动了,为什么没有发布数据

  启动任务时,先勾选三个框,然后右键点击规则启动。采集 规则运行后,将在最后发布。如果我们要和采集同时发布,上图中有一个发布。相关的,可以在release相关中打开side采集同时发布,前提是必须设置release。

  9.我想设置3分钟发3篇,怎么设置?

  这里有一个知识点,你得睁大眼睛看。首先,如果我们在采集之后设置最后释放的数据,那么我们的数据释放间隔会按照上图中的释放线程和间隔进行;其次,如果我们设置为采集时发布,那么上图中我们设置的发布间隔会自动失效,采集规则会按照采集的间隔发布,这里必须要明白。, 而采集 根据采集 的间隔自动释放规则。

  10.我要设置1个字采集如何设置1条数据?

  对于一级URL的提取规则,在其前面添加一个(*)。有必要明确一级URL的提取规则在哪里。起始地址为0级URL,即列表页规则。一级URL是内容页面的URL,一级URL的抽取规则是抽取内容页面的URL。

  今天总结的问题可以解决我们遇到的90%的问题。我们必须仔细阅读。已经整理得很详细了。以后有朋友遇到新问题,会再补充。再次感谢您的支持~

  解读:爬虫软件爬取公开网络数据案例(以大众点评为例)

  选择邯郸:

  点击食物:

  选择任何商业区:

  选择商家:

  我们发现这些网址非常有规律,这些规律将帮助我们抓取数据!

  让我们再次查看任何页面的源代码

  我们观察各个部分的分布位置,这样会缩小我们爬取的范围,加快爬取的速度。

  2. 网站采集

  打开 优采云采集器 软件。

  新任务。

  我们发现第一步是设置URL采集规则,这是非常重要的一步,会关系到我们采集的数据量。

  我们发现我们爬取的数据都在商家详情页:

  所以,让我们想办法进入这个页面!

  这里我选择按业务区域爬取(这样可以细化数据,也可以根据行政区域、业务类型,甚至不选择条件)

  我们选择一个商圈作为起始爬取地址。

  我们会发现这个页面有15个商家!

  每个商家都会对应一个连接。如果选择单连接,只会爬取15条数据,所以需要想办法解决分页问题。

  我们观察第二页和第三页的连接:

  显然,前面是唯一不变的,而后面的页码在变化。

  单击向导添加>>批量 URL

  

  将页码设置为地址参数,从2中选择,每次加1,共14项。

  我们可以通过阅读下面看到我们想看到的链接。

  点击网址采集Test,你会得到如下结果:

  我们采集到15页,每页采集到15条数据。这就是我们想要的!

  3. 内容采集

  在第二部分中,我们将设置 content采集 规则。

  这里我们要采集的数据是:经度、纬度、商家名称、位置信息、品味、环境、服务、评论数、人均消费。单独设置。

  我们先观察源码中各个部分的特点,然后填写开始和结束字符串。

  注意,我们必须保证起始字符串是唯一的,否则会选择第一个进行拦截。

  我们先看JS的这一段,里面收录了大部分的数据。

  经度

  公司名称

  地点信息

  我们来看看下面的源码比较有特点

  品尝

  评论数

  人均消费

  

  到这里的内容采集规则的基本设置就完成了,我们来测试一个数据:

  测试成功!

  4. 内容发布

  内容发布是为了输出采集好的数据。这里的免费版只支持导出为txt。

  为了方便转换为excel,我们设置如下规则:

  标签之间用英文逗号分隔,每条数据都添加一个换行符。

  基本设置完成,点击右下角保存退出。

  启动数据采集 并导出!

  txt 到 excel

  下面是我们导出的txt数据

  看起来乱七八糟,用起来不方便,所以我们保存为excel

  打开excel,点击打开文件,选择所有文件,找到我们的txt

  选择分隔符>>逗号分隔

  点击Finish得到我们想要的数据格式!

  有了这些数据,我们就可以开始我们的数据可视化之旅了!

  分类:

  技术要点:

  相关文章:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线