解决方案:云采集规则优化加速案例(2)——循环翻页拆分

优采云 发布时间: 2022-12-02 23:22

  解决方案:云采集规则优化加速案例(2)——循环翻页拆分

  本案例主要是帮助大家理解云采集的原理,然后根据这个思路优化自己的云采集规则,从而获得更高的采集速度。

  云采集速度对比:两个任务都运行在私有云上(这样就不需要为某一个任务排队)

  而我将占用的节点数调整为10个节点

  我们先看看原来的规则:

  此规则的目的是提取网页列表的 URL。这个规则对于一个单机采集来说是没有问题的,所有数据都会正常出来。

  但是这个规则有一个问题。没有设置ajax,所以翻页需要2分钟左右...

  Ajax 设置教程

  事实上,如果设置了Ajax,对于一个单机采集来说,这两个规则的速度是一样的。如果硬要比较,优化后的可能比未优化的慢不到1秒,因为多了一个输入页码的步骤

  看过云端采集加速原理的都知道,循环列表、URL列表和文本列表的固定元素列表只会拆分任务。

  而这里也遵循着这个规则。使用固定的元素列表,split就是split。这个任务确实占用了10个节点,但是没有加速效果。为什么是这样!

  因为一条规则中最耗时的事情就是打开网页!打开网页后提取数据并没有几秒,但是按照固定列表拆分后,变成了如下状态:

  子节点1:打开网页(5秒)-提取第一个数据-点击翻页(约2分钟)-提取第一个数据

  

  子节点2:打开网页(5秒)——提取第二条数据——点击翻页(约2分钟)——提取第二条数据

  子节点3:打开网页(5秒)-提取第三条数据-点击翻页(约2分钟)-提取第三条数据

  ...

  ...

  子节点10:打开网页(5秒)-提取第10条数据-点击翻页(约2分钟)-提取第10条数据

  一个子节点打开一个网页需要5秒得到1条数据,10个节点采集同时能多快...

  和单机采集(假设和云端一样的速度)

  打开网页(5秒)-提取1-10数据-点击翻页(约2分钟)-提取1-10数据...

  同一个页面,提取1条数据和提取10条数据的速度,相信试过的人都知道,速度基本是一样的。

  也就是说,规则云采集和单机采集基本没有区别,即使占用10个节点...

  现在我们要对采集规则进行优化,首先要观察网页,根据网页的特点进行优化。每个网页的优化方法不一定相同。

  我经常使用的方法是,如果URL中收录页码,直接使用打开URL网页的方法,而不是翻页循环。拆分任务后,一个节点打开页面的一部分。不清楚是哪一部分,是系统随机拆分的。分为。

  但是现在这个网页的每个页面的URL都是一样的,这种方法就不适用了。

  然后再观察网页,可以发现有一个跳转到多少页的按钮

  

  这个可以用text cycle,把页码写入text,循环输入页码,点击GO,用这个代替翻页循环,提取数据的循环按照原来的提取还是没问题的,因为拆分任务只会拆分最外层的循环列表,但是如果最外层是翻页循环,内层会被自动移除。

  本次优化规则循环我只放了1000个页码,大家看看效果,其实采集只需要继续添加页码,写完所有页码即可。建议在列表中最多放置 20,000 个。超过2W规则伤害的概率会增加。如果你想尝试,你可以先备份规则。万一损坏,有备份...

  好吧,让我们看看这个规则在用cloud采集拆分后是如何工作的

  这条规则拆分成100个子任务,即每个子任务中有10个页码,假设这十个页码是有顺序的,

  子节点1:打开网页(5秒)-输入页码1-点击跳转(3秒)-提取1-10数据-输入页码11

  子节点2:打开网页(5秒)-输入页码2-点击跳转(3秒)-提取前10条数据-输入页码12

  子节点3:打开网页(5秒)——输入3页码——点击跳转(3秒)——提取1-10的数据——输入13页码

  ...

  ...

  子节点10:打开网页(5秒)——输入页码10——点击跳转(3秒)——提取第1-10条数据——输入页码20

  那么此时真正的云端采集以十倍的速度运行,还不算上传规则到云端,然后拆分任务,分配云端节点,上传采集数据的时间到数据库,那么这个任务是前8秒100条数据,之后每3秒100条数据。

  其他云加速案例:

  云采集规则优化加速案例(一)——不固定元素列表转固定元素列表

  常用的方法:数据收集的四种常见方式,数据采集最好的方法。

  首先,手动更新是不可能的,我们需要免费的数据采集

软件关键词采集

全网带有大量长尾的伪原创文章关键词,最后优化网站结合相应的SEO优化设置。数据采集​​软件应该突出显示的长尾关键词可以适当的融入到标题和描述中,就像这个内容的标题本身就是长尾关键词一样。它出现在搜索引擎结果中的是标题、描述和网站。用数据采集软件优化网站链接无疑是统一网站搜索优化和用户体验的一种方式。是网站内容维护的最佳伙伴。直接观察法是调查人员到现场对调查对象进行观察、测量、登记,获取数据的方法。数据采集​​的五种方法是什么,青藤小编就在这里和大家分享一下。

  数据采集

的两种方法是什么?

  观察法应用广泛,常与询问法、实物采集结合使用,以提高采集信息的可靠性。文件检索。文献检索是从浩如烟海的文献中检索所需信息的过程。文献检索分为人工检索和计算机检索。按性质分为:①定位,如各种坐标数据。

  免费的数据采集软件,最近很多站长问我如何一个人更新大量的网站。首先,手动更新是不可能的,我们需要免费的数据采集

软件关键词采集

全网带有大量长尾的伪原创文章关键词,最后优化网站结合相应的SEO优化设置。然后一键自动将文章推送至搜索引擎,促进网站SEO收录和排名。【详情如图】

  

" />

  通过挖掘网站的长尾关键词,数据采集软件可以对这些长尾关键词进行汇总。这对于我们需要优化的长尾关键词有一定的针对性。我们主要考虑哪些长尾关键词可以给网站带来流量和转化率,可以加强。

  在优化长尾关键词的时候,数据采集软件一般是和内容页一起操作的,所以这个内容页的写法和优化非常重要。数据采集​​软件应该突出显示的长尾关键词可以适当的融入到标题和描述中,就像这个内容的标题本身就是长尾关键词一样。描述的书写方式非常重要。它出现在搜索引擎结果中的是标题、描述和网站。描述占用了很多字节。因此,数据采集软件会生成一个合理的、有吸引力的、详细的描述,可以为网站获得更多的点击。

  四种常见的数据采集

方式

  资料采集

软件采集

的每篇文章都能充分描述这个知识点,所以资料采集

软件会在文末合理推荐一些带有相关关键词的文章,好处多多。降低网站的跳出率,增加网站的外链,增加网站的PV等等,都可以很好的粘住客户。数据采集​​软件用户只需在网页上对目标管理网站进行简单设置即可。完成后,系统根据用户设置的采集

时间、发布时间、关键词,对内容和图片进行高精度匹配,自动进行文章聚合。,提供优质的数据服务。

  数据采集​​软件 当长尾关键词合理出现在其他文章中,即锚文本中,我们可以将其加粗,带出该关键词的文章链接。建议并记录您网站的长尾 关键词。

  

" />

  用数据采集软件优化网站链接无疑是统一网站搜索优化和用户体验的一种方式。数据采集​​软件是一款一站式的网站文章采集、原创、发布工具,可以快速提升网站采集、排名、权重。是网站内容维护的最佳伙伴。站内链接有序,无死链接,404页面,有效解决蜘蛛爬取站点时遇到的障碍,提高蜘蛛爬取的流畅性,通过某些内容快速定位到相关内容。数据采集​​软件可以让用户针对某些问题提供更全面的信息,从而有效地帮助用户。

  因此,数据采集软件在优化网站链接的同时,也需要对相关的延伸阅读进行优化。在404链接页面的优化中,数据采集软件还可以设置一些有趣的图片,减少用户打开死链接的次数。心急,实现统一的SEO优化和用户体验。

  网站优化离不开数据采集软件。不仅要分析上面提到的竞争对手的网站,还要分析自己网站的数据。如果网站没有流量,需要对采集

到的网站数据和排名数据进行分析。通过数据采集软件分析自己的数据,逐步完善网站,这样网站的SEO排名和采集就会有长足的进步。关于免费数据采集软件的讲解就到这里了,我会在下一期分享更多SEO相关的知识。有SEO技巧。

  统计资料采集

方法:直接观察法、访谈法(又分面谈法、电话法和自行填写法)、通讯法、网络调查法、卫星遥感法。直接观察法是调查人员到现场对调查对象进行观察、测量、登记,获取数据的方法。

  大数据研究也是为了把握事物之间的关系模式。在社会调查研究中,大数据的调查更多的是从大数据中选择数据,调查前也需要对研究假设和变量进行操作化。数据采集​​的五种方法是什么,青藤小编就在这里和大家分享一下。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线