优采云采集采集入门到熟练——01写规则前的打算工作

优采云发布时间: 2020-08-18 16:08

　　本文将开始采集的一些必要知识做讲解，有些很偏基础的或则网上有太现成的教学的，我会提供链接。

　　顾名思义，就是通过从网页中采集数据。你在浏览器中见到的都是网页，也叫页面，上面的每一个文字，每一个数字，都可以称之为数据。网页数据采集就是系统化提取网页前面的字符，从而得到有用的数据。

　　有些小白中的小白问优采云采集能采集什么东西，这是个孤寂的问题，任何一个网页中你能看到的字符都可以尽量想办法采集到。看不到的，只要出现在源代码中的，也可以尽量想办法采集到。优采云采集只是文章采集工具，数据源头须要自己找，不要把优采云采集想成自动贩卖机，想要哪些点一下就行，没这么容易的事情。先找到数据源页面才是重点，所以不要问以下的笨蛋问题：

　　问：优采云采集能采集所有北京饭馆信息么？

　　答：

　　应该是这样考虑问题：所有北京饭馆信息那里可以找到？大众点评-选择上海-选择餐饮应当有很多这些信息，全部的信息是很难的，但是大众点评的信息数目好多，基本可以囊括我的需求。所以问题直接变更为：优采云采集能否采集大众点评上的北京地区，美食店家信息？答案其实是可以的。

　　优采云采集能采集的数据非常好理解，就把它当成是个简化的excel表格便可。优采云采集作为采集器只是提取网页中的字符串信息，通过循环采集，最终得到的就是一张表，和excel不同的是，这个表里只有文字，没有图片和其他东西。所有的数据就会存到一张表格里。

　　就像昨天说的需求那样，可能你须要所有北京地区餐厅的店家信息。做哪些用？可能你想给那些店家打电话推销你的产品信息，也可能你只是须要统计你周边的竞争对手，或者只是你老总的突发奇想非使你采集那些数据，又或则是这是你的学院结业论文课题所须要的数据。数据的需求是多种多样的，但是都是一个流程：输入（数据来源）-采集（优采云采集）-加工（数据清洗）-输出（最终用途）。数据不是万能的，但是数据的最终用途是由你来决定的。

　　优采云采集官网：优采云采集是一个工具、程序、软件，它把数据采集的繁琐性工作简化为自动化执行，从而解决大批量数据采集的问题。

　　它的下载和安装都是比较简单的，优采云采集本身可以免费使用，免费版本基本操作都是ok的，但是只容许单机采集，并且导入数据的时侯须要用积分。如果不想花太多钱，完全可以使用单机采集，积分导入的方式。云采集作为旗舰版配置，主要是解决采集速度慢的问题，这个以后再细讲。

　　建议先好好看看优采云采集入门指南：优采云采集的基本操作在本文中不做过多讲解，也许你会批斗我：这不是入门教学么？为什么不讲？对此我只能说，优采云采集官网的教学视频太直白，软件操作入门上手难度也太低，预期我费力讲这种基本操作，不如通过举例子来讲解来得快。而且你又没给我钱，优采云采集也没给我钱，我干嘛讲这么细呢？是不是。

　　优采云采集采集原理可以简单地理解为，模拟用户访问某个页面，从页面源代码中提取想要的信息。一切的一切都基于模拟用户访问和用户操作，这就是优采云采集的核心——“模拟”。这个核心决定了好多问题，详细的可以看我写的其他文章《市面主流采集工具对比和个人体会》。

　　注：是的，你找不到这篇文章文章，为什么？因为我还没写，哈哈哈……（抱歉这只是临时的，因为没写完所以没更新链接）但是我在知乎的回答中有一些说明，可以点击这儿查看。

　　网页本身并不是直接显示在哪里的，你看见的页面是经过渲染才显示下来的。举个傻点的事例，就像是你看见一个蛋糕，但是你看不到这蛋糕上面的大米、鸡蛋、添加剂，你只见到了一个通过将原材料加工过后的成品。这就是它们之间的关系，源代码是原材料，通常的网页都是基于HTML语言编撰的源代码，通过你的浏览器，也就是IE、chrome、火狐之类的，进行解析、渲染以后得到的可视化页面。这部份不理解的同学自行百度，这里不过多阐发。

　　由于你在浏览器中见到的页面是经过“处理”的，所以最真实的数据你并不一定能看到。源代码诠释了那些数据，可能你以为难以提取的数据，实际上从源代码中可以听到并提取下来。而且优采云采集的工作机制就是从源代码中提取数据。

　　XPath 是一门在XML 文档中查找信息的语言。XPath 可拿来在XML 文档中对元素和属性进行遍历。这里你们别管xml是哪些，html也是一种文档，xpath支持在里面定位元素和查找属性信息。定位元素的元素指的是哪些呢？大家先瞧瞧HTML的代码事例：

　　最开始接触的人肯定看着感觉头昏脑胀的，没办法，没接触过编程的人肯定认为干嘛哪些都代码化。但是现实就是这般，代码化的东西再可视化能够实现机器和人类的交互。HTML是树状结构，一个元素下边嵌套好多别的元素，理论上是无限制的嵌套。比如：

　　1

　　2

　　等等等等……每一个都是一个元素，元素有自己的属性（进入新页面、触发操作、提交表单等），定位到了元素，就可以提取属性或则文本，从而精准提取我们须要的数据。别把它理解琐碎了，就想像成目录一样，通过xpath代码可以定位到具体某一章节的某一子节里一样。

　　Xpath之所以特别重要，就是由于优采云采集的一切定位和规则细节，全部依赖于xpath，所以xpath不把握，是不可能用好优采云采集的。具体的xpath教程，还是建议参考W3SCHOOL网站的，别怕沉闷，迎难而上能够突破自我：点击这儿。

　　当然，也别很害怕，之后有很多套路会教给你们，用xpath套路解决问题也会容易许多。

　　首先，你须要一个浏览器，大家肯定会太兴奋的说，这玩意我有一大堆！我们不需要其他的，优采云采集的内核是火狐浏览器，所以最保险的流程，就是安装一个火狐浏览器。接下来就是套路时间，请自行在网上找寻或则在火狐浏览器内下载和安装两个插件：

　　分别是Firebug和Firepath，它们的作用就是提供便捷的xpath定位和检测功能。

　　顺利安装完之后，我们步入随意一个网上的网页，点击F12快捷键就可以步入开发者操作区。

　　注意看我的截图，要先点击下方的firepath选项卡以后才会步入firepath操作界面，在这个界面里，先点击两侧的小按键，然后再点击页面上你想提取的数据位置，就可以查看源代码信息而且手动生成该元素的xpath代码。

　　有了这个工具辅助，优采云采集可以更精准的实现循环、定位元素，解决很多人莫名其妙的数据漏采、丢失、采集中断等问题。

　　有人会问，为什么不用IE、谷歌、QQ浏览器、傲游浏览器、搜狗浏览器？

　　很简单，一句话，优采云采集里面的浏览器是傲游内核……所以只有傲游听到的是最一致的。而且firepath还很好用的，谷歌上我还没找到和它完全一样的插件，有个比较好用的微软插件叫xpath helper，大家也可以试试看。

　　如果你以为在本文我都会开始采集，那你就大错特错了！这就是套路，我如何会在一篇文章中写那么多呢？你又不给我稿酬……以上都是打算工作，下一篇文章中，我会以一些网站做一些案例来讲采集的流程。我的原则是，不以冗长的基础教程来入门，直接以入门实战的方式去讲，其中一些细节和经验可以通过举一反三的方式扩充到更多的案例中，从而防止耳朵大，建立信心！

　　记得去目录页查看有什么文章已经更新可以见到了：

　　点击这儿（这个是我的博客上的链接，回头更新知乎上的）

　　群主的官方博客：极客狐狸的博客

　　（因为个人网站备案太麻烦，所以使用的是台湾服务器，没有备案，请无视相关警告和提示）

　　一些采集器教程和教学我就会更新到博客里，可以多多关注获得最新信息。

　　兔姐数据极客*敏*感*词*QQ群：462346024

0

2020-08-18

规则采集文章软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

优采云采集采集入门到熟练——01写规则前的打算工作

0 个评论

发起人

AI时代内容工厂

优采云采集采集入门到熟练——01写规则前的打算工作

0 个评论

发起人

相关问题