教程:优采云 产品使用手册
优采云 发布时间: 2022-11-21 10:46教程:优采云
产品使用手册
优采云
产品用户手册
目录
1 在 优采云
(2)
2Cookies(有关更多信息,请参见 Cookie 视频)(2)
2.1 cookies的诞生(二)
2.2 Cookie 概述(二)
2.3 cookie 的工作原理 (3)
3Xpath, HTML (3)
3.1 Xpath、Html概念(三)
3.2 html结构(4)
3.3 html标签、元素、节点(4)
3.4 html常用标签(5)
3.5 Html常用属性(六)
3.6 Xml、XPath、Html的关系及区别(七)
4常见问题(7)
5个常用软件操作教程(10)
5.1 采集单个网页(10)
5.2 捕获单个列表页面(10)
5.3 单网页表单信息采集(十)
5.4 采集
单页列表的详细信息(10)
5.5 采集
寻呼列表(10)
5.6 采集
寻呼列表的详细信息(10)
5.7 采集
分页列表+ajax延迟设置(十)
5.8 单一文本输入及各种登录方式合集(十一)
5.9 Cookie登录(11)
5.10 文本循环输入(11)
5.11 循环下拉框(11)
5.12 xpath简介1(11)
5.13 xpath简介2(11)
5.14 一页或两页重复循环合集(十一)
关于 优采云
优采云
·大数据,通过自主创新研发,以分布式云平台架构为产品核心,帮助客户在极短时间内通过简单操作获取所需数据,并使用结构化数据展示,为企业数据挖掘和数据分析提供基础数据源。2015年1月,获国家重点软件企业上市公司“特尔思”投资。
Cookies(查看 Cookie 视频了解更多详情) Cookies 诞生了
当用户打开浏览器发送页面请求时,Web 服务器简单地响应然后关闭与用户的连接。所以当用户向web服务器发起打开网页的请求时
,不管是不是第一次打开同一个网页,web服务器都会把这个请求当成第一次,所以这样的缺陷可想而知,比如每次打开都需要输入用户名登录页面,密码。为了弥补这个缺陷,cookies应运而生。
Cookie 概览
cookie是服务器暂时存储在您电脑上的一段信息,以便服务器可以识别它
你的电脑。当您浏览网站时,网络服务器会先向您的电脑发送小数据,cookie会为您记录您在网站上输入的文本(如用户名、密码)和其他操作。当你下次打开同一个网站时。网站服务器会先查看是否有上次留下的cookie信息,如果有,会根据cookie的内容判断用户,并发送特定的网页。
" />
页面内容给你。
cookie 的工作原理
Xpath, HTML
Xpath、Html 概念
Xpath:是一种路径查询语言。简单的说,就是用一个路径表达式来找到我们需要的数据位置。
Html:超文本标记语言是一种用来描述网页的语言。主要用于控制数据的显示和外观。HTML 文档也称为网页。
Xpath是专门用来在xml中沿路径查找数据的,但是优采云
在collector内部有一套针对Html的Xpath引擎,这样就可以直接通过Xpath来准确查找和定位网页中的数据。
HTML结构
一个完整的HTML文件至少包括标签、标签、标签、标签,这些标签都是成对出现的,开始标签为 ,结束标签为 ,在这两个标签之间添加内容。通过这些标签中的相关属性可以设置页面的背景颜色、背景图片等。
HTML 标签、元素、节点
html常用标签
HTML 公共属性
Xml、Xpath、Html的关系及区别
Xml 和 Html 既有相似之处,也有很大的不同。Xml收录
数据和对数据的描述,主要用于交换数据。Html 也收录
数据和数据的描述,但仅用于描述网页。Html的结构看起来与Xml相似,但并不严格遵循Xml标准,可视为非标准Xml。
Xpath是专门为Xml设计的,它是一种在复杂结构化数据中查找信息的语言,而我们的网页本质上就是Html文档,那么如何对网页进行Xpath查询呢?优采云
采集器内部有一套Html的Xpath引擎,可以直接通过Xpath对网页中的数据进行准确的搜索和定位。
常见问题
问:优采云
采集
器有免费版吗?
A: 优采云
采集器免费版的所有功能都可以使用。
Q:规则市场下载的文件后缀为.otd,如何打开?
A:.otd文件是优采云
采集器的规则文件(类似于ppt模板)。下载后使用优采云
采集
器运行即可采集
数据,但必须安装优采云
采集
器才能打开。免费下载 优采云
采集
器
Q:优采云
采集
器可以采集
匿名账户信息吗?
答:如果您没有查看匿名数据的权限,则不能。优采云
可以以更自动化和智能化的方式代替人工采集
数据,但它不会帮助您采集
您没有权限浏览的数据,例如其他人的密码和其他隐私数据。
Q:优采云
采集
器可以采集
别人的后台数据吗?
A:无法采集
。后台数据需要有后台访问权限。正规采集软件不会提供此类侵权服务。但是您可以采集
自己的背景数据。
Q:优采云
可以采集
QQ号、邮箱、电话号码等吗?
A:可以采集
。可以采集
您在网页上看到的任何数据。也有很多这样的规则可以在优采云
采集器内置的规则市场下载。无需配置,运行规则即可提取这些数据。Q:优采云
采集器
可以采集
图片吗?
A:可以采集
图片的网址,然后使用专用的批量下载工具将图片转换保存到本地电脑。免费下载“图片批量下载工具”,如果不知道如何使用,请参考“图片批量下载工具”视频教程
Q:如何判断优采云
采集
器可以采集
哪些信息?
A:简单来说,优采云
采集
器可以采集
您在网页上看到的所有信息。具体的采集规则需要您自行设置或从规则市场下载。
问:积分有什么用?
A:积分将用于下载数据、普通用户下载规则等,下载的数据越多,需要的积分就越多。
问:如何获得积分?
A:两种方式: 1.免费赚积分:目前论坛有踩楼送积分和上传规则打赏积分的活动;官网还有签到送积分、邀请好友送积分等活动。赚取积分。2.买积分:直接买积分,具体价格见套餐价格页面。
" />
Q:我邀请朋友注册,优采云
网站能自动识别是我邀请的吗?
A:老用户可以在会员中心获得属于自己的专属邀请链接,系统会自动为通过该链接注册的用户识别并奖励相应的积分。
问:优采云
VIP 和免费版有什么区别?
A:优采云
VIP是优采云
为会员推出的一项增值服务套餐折扣优惠,包括VIP可任意下载规则、单机下载不限次数等,VIP用户可享受半价优惠购买积分等价格优惠,详见八
Q:配置采集流程时,有时鼠标左键点击链接,弹出选项时网页会自动跳转。如何避免网页自动跳转?
A:某些使用脚本控制跳转的网页可能会在点击左键时跳转,给配置带来不便。右键点击一般可以避免自动跳转的问题。
Q:优采云
采集器安装成功后启动失败怎么办?
A:如果第一次安装成功,会提示“Windows正在配置优采云
采集器,请稍候”,然后会提示“安装过程中出现严重错误”,你有360安全您电脑上的卫士等类似软件如果正在运行,可能是因为360等杀毒软件误删除了优采云
运行所需要的文件。请退出360等杀毒软件,重新安装优采云
采集器。
Q:循环采集时采集到的值是固定值怎么办?
A:如果在配置周期采集时没有按照教程操作,系统可能无法识别所有周期项,只会采集第一个项。解决办法参考帖子:点此打开帖子。
Q:以上回答都不能解决我的问题怎么办?
A:优采云
是一款免费的网页数据采集工具,提倡学习互助。希望大家多看教程多练习。遇到问题可以在论坛或Q群提问交流,也可以向其他老会员寻求帮助。求助时不要不耐烦,要互相理解。优采云
团队成员致力于为您提供更好的产品体验,但目前我们无法提供专职客服为所有用户提供上手指导。我们力求以卓越的产品来表达我们对用户的诚意和敬业。希望大家理解和支持我们!
Q:有具体问题想咨询问题怎么办?
A:优采云
论坛汇集了很多问答、经验交流,是您提问、学习、交流的好地方。开放论坛
常用软件操作教程
以下内容详见视频教程文件夹或视频链接(视频名称与以下标题相符): 抓取单个网页
捕获单个列表页面
单网表单信息采集
采集
清单详情
采集
分页列表
采集
分页列表详细信息
采集
分页列表+ajax延迟设置
单一文字输入及多种登录方式合集
Cookie登录
文本循环输入
循环显示下拉框 xpath 入门 1 xpath 入门 2
一两页重复循环采集
相关采集教程:
优采云
爬虫软件入门优采云
网站爬虫入门介绍
优采云
爬虫软件功能教程
特殊翻页操作xpath抓取网页文本
云采集功能点说明
其他采集功能点
优采云
——90万用户选择的网络数据采集
器。
1、操作简单,任何人都可以使用:不需要技术背景,会上网就可以采集
数据。流程完全可视化,点击鼠标即可完成操作,2分钟即可快速上手。
2、功能强大,任何网站均可采集:对于点击、登录、翻页、识别验证码、瀑布流、Ajax脚本等异步加载数据的网页,通过简单设置即可采集。
3.云采集,关机也可以。采集任务配置完成后,可以关机,在云端执行任务。庞大的云采集集群24*7不间断运行,无需担心IP被封、网络中断。
4.功能免费+增值服务,按需选择。免费版功能齐全,可以满足用户的基本采集
需求。同时设置一些增值服务(如私有云),以满足高端付费企业用户的需求。
神奇:优采云
的采集器
文字、图片、flash、论坛附件、软件站资源,一网打尽。强大的内容采集和数据导入功能,可以将您采集的任何网页数据发布到远程服务器、cms系统,或保存为本地文件、Access、MySql、MS SqlServer数据库。不管你的网站是什么系统,你都可以使用优采云
采集
器。
" />
当然,该程序不仅仅用于采集
几篇文章。使用它,可以自动获取经常更新的信息,比如域名过期信息,最新消息等,还可以作为论坛灌水或者发帖机,置顶发帖机,只要你做得好在发布模块中。你也可以把它当作图片或文件的批量下载工具。程序的下载功能不亚于一些主流的下载工具。当你用它发送数据时,你可以实现更复杂的功能。优采云
Collector()是一款功能强大、简单易用的专业采集软件。其强大的内容采集和数据导入功能,可以将您采集的任何网页数据发布到远程服务器上。自定义用户cms系统模块,无论你的网站是什么系统,都可以使用优采云
采集器,系统自带模块文件支持:风迅文章、动易文章、东网论坛、PHPWIND论坛、Discuz论坛、phpcms文章模块文件、phparticle文章、LeadBBS论坛、魔幻论坛、Dedecms文章、Xydw文章、景云文章等。更多cms模块请参考制作修改,或到官网与大家交流。同时,您还可以使用系统的数据导出功能,通过系统内置的标签,将采集到的数据对应表的字段导出到本地任意一个Access、MySql、MS SqlServer。东网论坛、PHPWIND论坛、Discuz论坛、phpcms文章模块文件、phparticle文章、LeadBBS论坛、魔法论坛、Dedecms文章、Xydw文章、精云文章等。更多cms模块请参考制作修改,或前往到官网和大家交流。同时,您还可以使用系统的数据导出功能,通过系统内置的标签,将采集到的数据对应表的字段导出到本地任意一个Access、MySql、MS SqlServer。东网论坛、PHPWIND论坛、Discuz论坛、phpcms文章模块文件、phparticle文章、LeadBBS论坛、魔法论坛、Dedecms文章、Xydw文章、精云文章等。更多cms模块请参考制作修改,或前往到官网和大家交流。同时,您还可以使用系统的数据导出功能,通过系统内置的标签,将采集到的数据对应表的字段导出到本地任意一个Access、MySql、MS SqlServer。
" />