优采云采集采集入门到熟练——01写规则前的打算工作
优采云 发布时间: 2020-08-18 16:08优采云采集采集入门到熟练——01写规则前的打算工作
本文将开始采集的一些必要知识做讲解,有些很偏基础的或则网上有太现成的教学的,我会提供链接。
顾名思义,就是通过从网页中采集数据。你在浏览器中见到的都是网页,也叫页面,上面的每一个文字,每一个数字,都可以称之为数据。网页数据采集就是系统化提取网页前面的字符,从而得到有用的数据。
有些小白中的小白问优采云采集能采集什么东西,这是个孤寂的问题,任何一个网页中你能看到的字符都可以尽量想办法采集到。看不到的,只要出现在源代码中的,也可以尽量想办法采集到。优采云采集只是文章采集工具,数据源头须要自己找,不要把优采云采集想成自动贩卖机,想要哪些点一下就行,没这么容易的事情。先找到数据源页面才是重点,所以不要问以下的笨蛋问题:
问:优采云采集能采集所有北京饭馆信息么?
答:
应该是这样考虑问题:所有北京饭馆信息那里可以找到?大众点评-选择上海-选择餐饮应当有很多这些信息,全部的信息是很难的,但是大众点评的信息数目好多,基本可以囊括我的需求。所以问题直接变更为:优采云采集能否采集大众点评上的北京地区,美食店家信息? 答案其实是可以的。
优采云采集能采集的数据非常好理解,就把它当成是个简化的excel表格便可。优采云采集作为采集器只是提取网页中的字符串信息,通过循环采集,最终得到的就是一张表,和excel不同的是,这个表里只有文字,没有图片和其他东西。所有的数据就会存到一张表格里。
就像昨天说的需求那样,可能你须要所有北京地区餐厅的店家信息。做哪些用?可能你想给那些店家打电话推销你的产品信息,也可能你只是须要统计你周边的竞争对手,或者只是你老总的突发奇想非使你采集那些数据,又或则是这是你的学院结业论文课题所须要的数据。数据的需求是多种多样的,但是都是一个流程:输入(数据来源)-采集(优采云采集)-加工(数据清洗)-输出(最终用途)。数据不是万能的,但是数据的最终用途是由你来决定的。
优采云采集官网:优采云采集是一个工具、程序、软件,它把数据采集的繁琐性工作简化为自动化执行,从而解决大批量数据采集的问题。
它的下载和安装都是比较简单的,优采云采集本身可以免费使用,免费版本基本操作都是ok的,但是只容许单机采集,并且导入数据的时侯须要用积分。如果不想花太多钱,完全可以使用单机采集,积分导入的方式。云采集作为旗舰版配置,主要是解决采集速度慢的问题,这个以后再细讲。
建议先好好看看优采云采集入门指南:优采云采集的基本操作在本文中不做过多讲解,也许你会批斗我:这不是入门教学么?为什么不讲? 对此我只能说,优采云采集官网的教学视频太直白,软件操作入门上手难度也太低,预期我费力讲这种基本操作,不如通过举例子来讲解来得快。而且你又没给我钱,优采云采集也没给我钱,我干嘛讲这么细呢?是不是。
优采云采集采集原理可以简单地理解为,模拟用户访问某个页面,从页面源代码中提取想要的信息。一切的一切都基于模拟用户访问和用户操作,这就是优采云采集的核心——“模拟”。这个核心决定了好多问题,详细的可以看我写的其他文章《市面主流采集工具对比和个人体会》。
注:是的,你找不到这篇文章文章,为什么?因为我还没写,哈哈哈……(抱歉这只是临时的,因为没写完所以没更新链接)但是我在知乎的回答中有一些说明,可以点击这儿查看。
网页本身并不是直接显示在哪里的,你看见的页面是经过渲染才显示下来的。举个傻点的事例,就像是你看见一个蛋糕,但是你看不到这蛋糕上面的大米、鸡蛋、添加剂,你只见到了一个通过将原材料加工过后的成品。这就是它们之间的关系,源代码是原材料,通常的网页都是基于HTML语言编撰的源代码,通过你的浏览器,也就是IE、chrome、火狐之类的,进行解析、渲染以后得到的可视化页面。这部份不理解的同学自行百度,这里不过多阐发。
由于你在浏览器中见到的页面是经过“处理”的,所以最真实的数据你并不一定能看到。源代码诠释了那些数据,可能你以为难以提取的数据,实际上从源代码中可以听到并提取下来。而且优采云采集的工作机制就是从源代码中提取数据。
XPath 是一门在XML 文档中查找信息的语言。XPath 可拿来在XML 文档中对元素和属性进行遍历。这里你们别管xml是哪些,html也是一种文档,xpath支持在里面定位元素和查找属性信息。定位元素的元素指的是哪些呢?大家先瞧瞧HTML的代码事例:
最开始接触的人肯定看着感觉头昏脑胀的,没办法,没接触过编程的人肯定认为干嘛哪些都代码化。但是现实就是这般,代码化的东西再可视化能够实现机器和人类的交互。HTML是树状结构,一个元素下边嵌套好多别的元素,理论上是无限制的嵌套。比如:
1
2
等等等等……每一个都是一个元素,元素有自己的属性(进入新页面、触发操作、提交表单等),定位到了元素,就可以提取属性或则文本,从而精准提取我们须要的数据。别把它理解琐碎了,就想像成目录一样,通过xpath代码可以定位到具体某一章节的某一子节里一样。
Xpath之所以特别重要,就是由于优采云采集的一切定位和规则细节,全部依赖于xpath,所以xpath不把握,是不可能用好优采云采集的。具体的xpath教程,还是建议参考W3SCHOOL网站的,别怕沉闷,迎难而上能够突破自我:点击这儿。
当然,也别很害怕,之后有很多套路会教给你们,用xpath套路解决问题也会容易许多。
首先,你须要一个浏览器,大家肯定会太兴奋的说,这玩意我有一大堆!我们不需要其他的,优采云采集的内核是火狐浏览器,所以最保险的流程,就是安装一个火狐浏览器。接下来就是套路时间,请自行在网上找寻或则在火狐浏览器内下载和安装两个插件:
分别是Firebug和Firepath,它们的作用就是提供便捷的xpath定位和检测功能。
顺利安装完之后,我们步入随意一个网上的网页,点击F12快捷键就可以步入开发者操作区。
注意看我的截图,要先点击下方的firepath选项卡以后才会步入firepath操作界面,在这个界面里,先点击两侧的小按键,然后再点击页面上你想提取的数据位置,就可以查看源代码信息而且手动生成该元素的xpath代码。
有了这个工具辅助,优采云采集可以更精准的实现循环、定位元素,解决很多人莫名其妙的数据漏采、丢失、采集中断等问题。
有人会问,为什么不用IE、谷歌、QQ浏览器、傲游浏览器、搜狗浏览器?
很简单,一句话,优采云采集里面的浏览器是傲游内核……所以只有傲游听到的是最一致的。而且firepath还很好用的,谷歌上我还没找到和它完全一样的插件,有个比较好用的微软插件叫xpath helper,大家也可以试试看。
如果你以为在本文我都会开始采集,那你就大错特错了!这就是套路,我如何会在一篇文章中写那么多呢?你又不给我稿酬……以上都是打算工作,下一篇文章中,我会以一些网站做一些案例来讲采集的流程。我的原则是,不以冗长的基础教程来入门,直接以入门实战的方式去讲,其中一些细节和经验可以通过举一反三的方式扩充到更多的案例中,从而防止耳朵大,建立信心!
记得去目录页查看有什么文章已经更新可以见到了:
点击这儿(这个是我的博客上的链接,回头更新知乎上的)
群主的官方博客:极客狐狸的博客
(因为个人网站备案太麻烦,所以使用的是台湾服务器,没有备案,请无视相关警告和提示)
一些采集器教程和教学我就会更新到博客里,可以多多关注获得最新信息。
兔姐数据极客*敏*感*词*QQ群:462346024