手机版文章采集软件(这是简易数据分析系列的第1篇文章(1):数据采集 )

优采云 发布时间: 2022-01-06 02:19

  手机版文章采集软件(这是简易数据分析系列的第1篇文章(1):数据采集

)

  这是简单数据分析系列文章的第一篇。

  前面说了,我会做一系列的数据分析教程,针对纯新手,不写代码或公式,入门数据分析。教程内容将从三个方向展开:数据采集、数据清洗和数据可视化。

  今天就开始我们的数据采集之路。

  数据采集听起来高大上,但对于普通人来说,就是复制粘贴的自动化版本。

  

  我们想象一个场景,打开网易云音乐,发现某首音乐的热门评论很好玩,特别是我们想采集,一般怎么做?当然是复制粘贴。最热门的评论十几条,一分钟搞定采集。

  如果数据量特别大怎么办?比如几百万几千万的数据,这肯定不是一个人可以处理的,需要专业团队的技术支持。

  比如谷歌、百度等搜索引擎公司需要采集海量内容,其背后是运行的高性能爬虫程序;一些做大数据的公司还得给采集数据写爬虫,这些工作都是由专业的爬虫工程师完成的。

  

  但是在日常生活中,我们总会遇到一些数据量或大或小的场景:

  当你在学校的时候,你需要为某门课程做数据研究。如果你想采集某个微博上的所有评论,数据量只有几百。手动复制粘贴贴吧,太累了,写个爬虫,自己不行,卡在这里好久了,启动不了;

  我在做运维工作的时候想采集一些参考数据,数据量只有几百或者几千。技术上忙着写bug,没时间让你做个人需求,导致分析工作延迟;

  当我换工作的时候,我不知道下一家公司在这个行业的工资水平是多少。我搜索了几个招聘网站,结果是一个网站和一个号码。没有统一的薪酬分析平台。

  对于这些几千到万级数据量的场景,我们在日常生活中经常会遇到,不会涉及很多高端的内容:高并发爬虫系统、机器学习深度学习、大数据分析。

  我们一般只想采集数据,然后看几个统计数据,然后做几个图表来帮助我们思考和决策。我这次课程的目的就是解决这个日常需求,让大家快速进入数据分析。世界。

  关于data采集软件,经过一段时间的调研,浏览器插件Web Scraper是首选。

  

  推荐理由有几个:

  1.门槛够低,只要电脑安装了Chrome浏览器就可以使用

  2.永久免费,无付费功能,无需注册

  3. 操作简单,鼠标点几下就可以爬取网页,用0行代码写一个真正意义上的爬虫

  既然有这么多优点,当然要快点安装。下一步就是开始我们的插件安装之旅了。

  1.安装Chrome浏览器

  对此没有什么可说的。Windows电脑各大应用商店都有最新版的Chrome浏览器,或者百度,首页一般都有安装包地址,下载安装即可;

  (为了减少兼容性问题,最好安装最新版本的Chrome浏览器)

  2.下载Web Scraper插件

  2.1 可以直接访问的同学,直接访问“Chrome网上应用店”,搜索Web Scraper并下载:

  

  2.2 临时无条件访问,我们可以用曲线救国,当然比上面的会麻烦一点:

  首先我们访问这个国产浏览器插件网站,搜索Web Scraper,下载插件。注意此时插件并不是直接安装在浏览器上,而是下载到本地:

  

  然后,我们在浏览器的URL输入框中输入chrome://extensions/,就可以打开浏览器的插件管理后台了:

  

  如果您是 Mac 用户:

  我们找到了下载的Web Scraper插件,文件扩展名是.crx,我们改成.zip

  

  然后切换到浏览器插件管理后台,打开右上角的开发者模式,将Web Scraper.zip文件拖进去,安装完成;

  

  一般这个安装会有一个红色的错误按钮,我们不关心,直接无视即可。

  如果您是 Windows 用户,则需要执行以下操作:

  1. 将.crx后缀的插件改成.rar,然后解压

  2.进入chrome://extensions/这个页面,开启开发者模式

  3.点击“加载解压后的扩展”,选择第一步解压的文件夹,正常情况下安装成功。

  

  到此,我们的插件就安装好了,先别急着用,下面我们一起来探索一下Chrome浏览器的未知功能吧。

  3.浏览器的隐藏功能

  作为普通用户,您使用浏览器查看信息和浏览网页。但在开发者眼中,Chrome 浏览器提供了非常强大的开发能力。下面我给大家介绍几个常用的功能,方便我们后续的学习。

  3.1 打开开发者后台

  这个功能其实我在老文章《造谣成本有多低?》一行代码就可以截屏。如《从普通浏览模式切换到开发者模式,只需按F12即可实现。切换后台其实有几种方法,但是太麻烦了,我来了,不多说了,有兴趣的可以去看原文。

  

  3.2 一行代码自由修改网页

  这也是老文章《造谣的成本有多低?》一行代码就可以对“Fake”的内容进行截图,感兴趣的同学可以一探究竟。

  3.3 切换开发者后端的位置

  控制台打开后,通常会显示在网页底部。其实我们也可以切换到网页右侧进行显示。具体操作是点击后面板右侧关闭按钮旁边的…按钮。

  

  这里我放大了字体来演示效果。在实际操作中,你的字体要小一些,不影响使用。

  3.4 用电脑浏览器模拟手机浏览器

  用电脑浏览器模拟手机浏览器是一个非常有用的功能。因为现在是移动互联网时代,公司网页大部分首先支持手机屏幕,手机浏览器的数据结构更清晰,更容易抓取。

  开启模拟手机也很简单,只需点击一次打开开发者后台左侧的手机开关图标,然后刷新即可。

  

  我们可以拿豆瓣这个网站来演示。

  

  我们将在后续课程中使用此功能。当然,我们也可以做其他的事情,比如上班的时候打开一个小屏幕偷偷扫描微博。当然,当你被老板抓到的时候,别说是我教你的。

  

  好了,今天的准备就到这里了。下一期,我们将开始学习如何使用Web Scraper。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线