内容采集器(优采云客户端采集能力分析及收费策略)

优采云 发布时间: 2022-01-25 01:17

  内容采集器(优采云客户端采集能力分析及收费策略)

  1、积分

  积分是优采云增值服务的一种支付方式,用于在优采云采集器采集数据之后导出数据。免费版需要积分导出数据,专业版及以上有无限导出数据。积分可以单独购买,也可以通过登录、完善个人信息、绑定社交账号等方式获得。

  注意:不同账户类型在使用优采云增值服务时会有不同的计费策略。具体的计费策略和区别在发行说明中有详细说明。

  2、规则(也称为任务)

  

  规则是优采云规则配置程序记录手动操作过程,显示在优采云客户端,可以进行导入导出操作的程序脚本。配置规则时,优采云可以根据配置的规则自动执行数据采集,而不是手动采集。

  3、云加速

  优采云系统部署在分布式集群中。每个集群由大量的云节点组成。单个节点的采集 能力相当于PC 的采集 能力。通过后台的优采云版本资源分配策略,分配多少云节点资源享受数倍的加速,版本越高的账号,加速倍数越高。

  4、云优先

  如果多个用户共享一个云集群的资源,那么集群的大小是有上限的。如果同时提交的云集群任务过多,造成资源拥塞,那么根据用户账号版本的不同,优采云系统会默认进行排序。版本越高,优先级越高,将优先获得资源分配的权益。暂时没有分配资源的任务会被排队。

  5、网址

  

  URL 指的是普通的 网站 URL。

  6、本地采集

  

  本地采集表示不占用云集群资源,只能通过优采云客户端所在PC工作。工作过程中,电脑和软件需要运行,电源或网络中断。将导致 data采集 任务中断。

  7、云采集

  

  云采集指使用优采云提供的服务器集群工作。集群处于7*24小时的工作状态。在客户端,完成任务设置并提交到云服务执行。云采集之后,可以关闭软件,关机,下线采集,真正的无人值守。另外,cloud采集通过云服务器集群的分布式部署方式,多个节点可以同时进行操作,可以提高采集的效率,并且可以有效避免各种网站@ > IP 阻止策略。

  8、定时采集

  

  定时采集是指用户设置优采云的采集规则后,可以设置任务在云采集集群上定时运行,任务会根据设置到定时设置。时间周期性运行多次,支持实时采集。

  9、网址循环

  

  URL循环是指在URL URLs中设置一个优采云loop采集一批数据。

  10、自动导出

  

  自动导出是指用户可以通过一些设置自动导出数据,支持自动导出到数据库。自动导出到数据库只支持云采集,可以在采集的同时导出,将当前没有导出的数据导出。

  11、Cookie

  

  1) Cookie 诞生:当用户打开浏览器进行页面请求时,Web 服务器简单地响应然后关闭与用户的连接。因此,当用户向Web服务器发起打开网页的请求时,无论是否是第一次打开同一个网页,Web服务器都会将该请求视为第一次,因此此类缺陷可以想象一下,比如每次打开登录页面,都需要输入用户名和密码。为了弥补这一缺陷,cookies应运而生。

  2) Cookie 概述:Cookie 是由服务器临时存储在您的计算机上的一条信息,以便服务器可以识别您的计算机。当您在浏览网站时,网络服务器会先发送一小段您电脑上的信息,cookie会帮助您在网站上输入文字(如用户名、密码)和一些记录其他操作。下次您打开相同的 网站 时。网络服务器会先检查是否有上次留下的cookie信息,如果有则根据cookie的内容判断用户,并发送给您具体的网页内容。

  3)cookie登录:优采云内置了记录cookie的功能,登录后通过获取cookie可以记住登录状态,从而达到采集数据的目的。cookies只能在优采云打开的网页中获取,不支持自定义添加或修改cookies

  12、XPath

  

  XPath:它是一种路径查询语言。简单地说,它使用路径表达式来查找我们需要的数据位置。XPath 设计用于沿 XML 中的路径查找数据。HTML有一套XPath引擎,可以使用XPath对网页中的数据进行准确的查找和定位。

  13、HTML

  

  HTML 概念 HTML:超文本标记语言,是一种用于描述网页的语言。主要用于控制数据的显示和外观。HTML 文档也称为网页。

  HTML结构:一个完整​​的HTML文件至少包括标签,

  标签,标签和标签,而这些标签是成对出现的,开始标签是,结束标签是>,并且在这两个标签之间添加内容。页面的背景颜色、背景图片等可以通过这些标签中的相关属性进行设置。

  14、固定元素列表和不固定元素列表

  

  固定元素列表是一种精确定位的方式,适用于网页中采集的元素个数为固定个数,XPath精确定位到一个元素的情况。如图:3个XPath可以精确定位到3个标签。

  //DIV[@class='video-list']/DIV[1]/A[1]/H3[1]

  //DIV[@class='video-list']/DIV[2]/A[1]/H3[1]

  //DIV[@class='video-list']/DIV[3]/A[1]/H3[1]

  

  不固定元素列表是一种模糊定位方法,用于解决某些网页列表元素不是固定数量的情况,例如有些网页第一页有8个相似元素,第二页有14个相似元素。如图:一个XPath可以直接收录这三个a标签。

  //一个[@class='test']

  15、AJAX

  

  AJAX:AJAX是一种延迟加载和异步更新的脚本技术。通过在后台与服务器交换少量数据,可以在不重新加载整个网页的情况下更新网页的某一部分。在优采云中,如果只更新了网页的部分数据,而网站的URL没有变化,则优采云无法接收到网页变化信号,导致采集停止或采集 没有收到数据。

  AJAX在网页上的性能特点: 1、当点击网页中的一个选项时,大部分的网站 URLs不会改变;2、网页没有完全加载,只是部分加载了数据。变化。

  16、IFRAME 帧

  

  IFRAME 是一个 HTML 标记,它创建收录另一个文档的内联框架(即内联框架),即网页中的网页。比如我们可以通过火狐获取1688登录框的详细地址,然后直接输入详细地址进行流程设计。在火狐浏览器上右击登录框→选择这个框架→查看框架信息→地址,这个地址就是登录框。获取该地址后,在优采云中输入该URL作为规则。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线