关键词采集词(优采云采集器使用必知的关键词)
优采云 发布时间: 2021-09-21 10:02优采云采集器使用必须知道的关键词
1、积分
积分用于支付优采云增值服务。在优采云采集器采集数据之后,它们用于导出数据。免费版导出数据需要积分,专业版及以上导出数据无限制。积分可以单独购买,也可以通过登录、改进个人数据、绑定社会帐户等方式获得
注:不同账户类型在使用优采云增值服务时有不同的收费策略。版本说明中详细说明了具体的充电策略和差异
2、规则
规则是一种程序规则,优采云规则配置器记录手动操作过程,并将其显示在优采云客户端中,并且可以导入和导出。规则配置后,优采云可以根据配置的规则自动执行数据采集而不是手动执行采集@
3、云加速
优采云系统部署在分布式集群中。每个集群由大量的云节点组成。单个节点的采集容量相当于一台PC,通过优采云后台版本资源分配策略,分配的云节点资源数量会有几次加速,版本越高的账户加速次数越高
4、cloud-first
如果多个用户共享集群的资源,则集群的大小有一个上限。如果同时提交的集群任务过多,导致资源拥塞,优采云系统默认按照用户帐户版本进行排序。版本较高、优先级较高的,优先获得资源配置权益。未临时分配给资源的任务将排队
5、URL
URL指的是正常的网站URL
单机采集
*敏*感*词*采集表示它不占用集群的资源,只能通过优采云客户端所在的PC工作。在工作期间,计算机和软件都需要运行。电源中断或网络中断将导致采集任务的数据中断
K15时的云@
云采集指通过优采云提供的服务器集群工作,该集群处于7*24小时工作状态。在客户端完成任务设置并提交给云服务执行后,您可以关闭软件并关闭计算机进行离线采集操作,真正实现无人值守。此外,云采集可以通过分布式部署ECS集群,同时进行多节点操作,有效提高采集效率,避免各种网站IP阻塞策略
K15时的计时@
Scheduled采集表示用户可以设置优采云的采集规则,在云采集集群上定期运行任务。该任务将根据定期设置的时间定期运行数次
9、URL流通
URL循环是指在URL中设置优采云looping采集一批数据
10、自动导出
自动导出是指用户可以通过一些设置自动导出数据,并支持自动导出到数据库。自动导出到数据库只支持云采集,云可以同时导出采集。导出的数据是目前尚未导出的数据
饼干
1)cookie birth:当用户打开浏览器并发出页面请求时,web服务器只需响应,然后关闭与用户的连接。因此,当用户向web服务器发起打开网页的请求时,无论是否是第一次打开同一网页,web服务器都会将该请求视为第一次。这些缺陷是可以想象的。例如,每次打开登录页面时都需要输入用户名和密码。为了弥补这一缺陷,cookies应运而生
2)cookie概述:cookie是服务器临时存储在计算机上的一段数据,以便服务器能够识别您的计算机。当您浏览网站时,web服务器将首先向您的计算机发送小数据,cookie将帮助您记录在网站上键入的文本(如用户名、密码)和其他操作。下次你再打开同样的网站. web服务器将首先查看上次是否留下任何cookie。如果有,它将根据cookie的内容判断用户,并向您发送特定的web内容
3)cookie login:在优采云中内置记录cookie的功能,通过登录后获取cookie来记忆登录状态,从而达到采集数据的目的
12、XPATH
XPath:它是一种路径查询语言。简而言之,它使用一个路径表达式来查找我们需要的数据位置。XPath专门用于在XML中沿路径查找数据。有一套用于HTML的XPath引擎,因此您可以直接使用XPath准确地查找和定位网页中的数据
13、HTML
HTML概念HTML:超文本标记语言是一种用于描述网页的语言。主要用于控制数据的显示和外观。HTML文档也称为网页
HTML结构:完整的HTML文件至少包括标记、标记、标记和标记,这些标记成对出现。开始标记为,结束标记为。在两个标记之间添加内容。可以通过这些标记中的相关属性设置页面的背景颜色和背景图像
14、固定元素列表和非固定元素列表
固定元素列表是一种精确定位方法。它适用于网页上采集的元素数量固定的情况。XPath可以准确地定位元素。如图所示:三个XPath可以准确定位三个a标签
//DIV[***@class='video-list']/DIV[1]/A[1]/H3[1]
//DIV[***@class='video-list']/DIV[2]/A[1]/H3[1]
//D