云采集(优采云客户端采集能力分析及收费策略)
优采云 发布时间: 2021-10-06 22:02云采集(优采云客户端采集能力分析及收费策略)
1、集成
积分是支付优采云增值服务的一种方式。优采云采集器采集数据后,用于导出数据。免费版需要点数导出数据,专业版及以上没有导出数据的限制。积分可以单独购买,也可以通过登录、完善个人信息、绑定社交账号等多种方式获取。
注:使用优采云增值业务时,不同的账户类型会有不同的计费策略。具体的收费策略和区别在版本说明中有详细说明。
2、规则(也称为任务)
规则是优采云规则配置程序记录手工操作过程的程序脚本,显示在优采云客户端,可导入导出。配置规则时,优采云可以根据配置的规则采集自动执行数据,而不是手动采集。
3、云加速
优采云系统采用分布式集群部署方式。每个集群由大量的云节点组成。单个节点的采集能力相当于PC的采集能力。通过优采云后台版本资源分配策略,分配的云节点资源数将享受数倍的加速,版本越高的账户拥有更高的加速倍数。
4、云优先
如果多个用户共享一个云集群的资源,则集群的大小是有上限的。如果同时提交的云集群任务过多,造成资源拥塞,那么优采云系统会根据用户账号的版本,默认排序,版本高优先级高的版本优先获得资源配置的权益。尚未分配资源的任务将排队。
5、网址
URL 指的是普通的 网站 URL。
6、本地采集
本地采集是指不占用云集群资源,只能通过优采云客户端所在的PC工作。工作过程中,要求计算机和软件处于运行状态,电源中断或网络中断。会造成数据采集任务的中断。
7、云采集
云采集是指使用优采云提供的服务器集群来工作。集群处于7*24小时工作状态。任务在客户端设置并提交到云服务执行。云端采集后,可以关闭软件,关闭电脑,下线采集,真正做到无人值守。另外,云采集通过分布式部署云服务器集群,多节点同时运行,可以提高采集的效率,并能有效避免各种网站 IP 阻塞策略。
8、时间采集
定时采集是指用户设置优采云的采集规则后,可以设置任务运行在云采集集群上,任务将根据时间设置 Time 周期性运行多次,支持实时采集。
9、网址循环
URL循环是指在一批URL中设置优采云循环采集数据。
10、自动导出
自动导出是指用户可以通过一些设置实现数据的自动导出,支持自动导出到数据库。自动导出到数据库只支持云采集,采集的同时可以导出,当前导出没有导出的数据。
11、饼干
1) cookie的诞生:当用户打开浏览器进行页面请求时,Web服务器简单地响应然后关闭与用户的连接。所以每次用户向Web服务器发起打开一个网页的请求,无论是第一次打开同一个网页,Web服务器都会把这个请求作为第一次处理。你可以想象这样的缺陷,比如你每次打开登录页面都需要输入用户名和密码。为了弥补这一不足,Cookie应运而生。
2) Cookie 概述: Cookie 是服务器临时存储在您的计算机上的一条信息,以便服务器能够识别您的计算机。当你浏览网站时,web服务器会先发出小信息,放到你的电脑上。cookie 会帮助你在 网站 上输入的文本(如用户名、密码)和一些其他的操作被记录下来。下次打开同一个网站。网络服务器会首先检查是否有上次留下的cookie信息,如果有,它会根据cookie内容判断用户并向您发送具体的网页内容。
3)cookie登录:优采云内置记录cookie的功能,登录后通过获取cookie可以记住登录状态,达到采集数据的目的。Cookies只能从已经打开的网页获取优采云,不支持自定义添加或修改cookies
12、XPath
XPath:它是一种路径查询语言。简单来说,它使用路径表达式来查找我们需要的数据位置。XPath 专门用于沿 XML 路径查找数据。HTML 有一套XPath 引擎,可以直接使用XPath 查找和定位网页中的数据。
13、HTML
14、 固定元素列表和非固定元素列表
固定元素列表是一种精确定位的方法,适用于网页中采集元素数量固定的情况,一个XPath可以准确定位一个元素。如图:3个XPath可以准确定位3个a标签。
//DIV[@class='video-list']/DIV[1]/A[1]/H3[1]
//DIV[@class='video-list']/DIV[2]/A[1]/H3[1]
//DIV[@class='video-list']/DIV[3]/A[1]/H3[1]
非固定元素列表是一种模糊定位方法,用于解决某些网页列表元素不是固定数量的情况。例如,一些网页的第一页有8个相似元素,第二页有14个相似元素。如图:一个XPath可以直接收录所有三个a标签。
//a[@class='test']
15、AJAX
AJAX:AJAX 是一种延迟加载和异步更新的脚本技术。通过后台与服务器的少量数据交换,可以在不重新加载整个网页的情况下更新网页的某一部分。在优采云中,如果网页上只更新了部分数据,而网站的URL没有变化,则优采云无法接收到网页变化信号,导致采集停止或采集 没有数据。
AJAX在网页上的特点: 1、 当你点击网页中的一个选项时,网站的大部分网址不会改变;2、 网页没有完全加载,只是部分加载了数据。已经改变。
16、IFRAME 帧
IFRAME 是一个 HTML 标签,它将创建一个收录另一个文档的内联框架(即内联框架),这意味着一个网页中的一个网页。比如我们可以通过火狐获取1688登录框的详细地址,然后直接输入详细地址进行流程设计。火狐浏览器登录框右击→选择此框→查看框信息→地址,此地址为登录框的真实URL,获取此地址后,在优采云中按规则输入此URL。