沙漠君的爬虫大概的原理和程序地址和使用说明
优采云 发布时间: 2021-05-04 03:08沙漠君的爬虫大概的原理和程序地址和使用说明
Hawk1
许多朋友在阅读了沙漠先生的分析文章之后会问我,数十万个二手房,租金,薪水甚至天气数据将如何在十分钟之内到达采集。数据从何而来?遇到此类问题时,我会回答,我使用特殊的工具,无需编程即可快速掌握它。以后我一定会问,我可以在哪里下载该工具?我轻声说,我自己写的。 。 。 (这个是B ...我给它95分!)
先生。沙漠最近很忙,许多写作任务尚未完成。教人们如何钓鱼比教人们如何钓鱼更好。我决定将此软件开源到GitHub!从那时起,据估计许多爬行动物工程师将失去工作。因为我的目标是将其提供给普通民众,所以目标有点宏大,但距离似乎并不遥远。本文文章介绍了采集器的一般原理,文章的末尾将显示程序地址和指令。
1.什么是爬虫
Internet是一个大型网络,可以将采集数据的小型程序生动地称为“爬虫”或“蜘蛛”。但是这样的名字并不好,所以我将软件Hawk命名为“ Eagle”,它可以准确,快速地捕获猎物。采集器的原理非常简单。当我们访问网页时,我们将单击翻页按钮和超链接,浏览器将帮助我们请求所有资源和图片。因此,您可以设计一个程序,该程序可以模拟浏览器上的人工操作,并使网站错误地认为采集器是正常的访问者,它将返回所需的数据。采集器有两种类型,一种是可捕获所有内容的搜索引擎采集器,通常由像Baidu(Black)这样的公司使用。另一个是由Desert先生开发的,只能准确捕获所需的内容。例如,我只需要二手房信息,并且不需要任何广告和新闻。该软件基本上不需要编程,可以通过图形化操作快速设计爬虫,这有点像Photoshop。它可以在20分钟内为Dianping编译一个爬网程序(简化版仅需3分钟),然后运行它。该软件看起来像这样,(高端黑色,高端黑色)
2.自动将网页导出到Excel
那么,如果页面太大,爬虫又怎么知道我想要什么?
当然,人们可以很容易地看到上图中的红色框是二手房的信息,但是机器不知道。网页是一棵结构化的树,重要信息所在的节点通常很繁华。举个不恰当的类比,当一个后代家族形成树状家谱时,谁最强?当然,有很多孩子(可以生育),每个孩子都非常有竞争力(孙子也很多),最好每个孩子都和(N个出生)的人非常相似,每个人都会认为他的家人太强大了!
当我们对整个树结构进行评分时,我们自然可以找到最强大的节点。这个节点就是我们想要的表。
找到最好的祖父后,尽管两个儿子相似,但他们都有共同点:高大,英俊,两条胳膊和两条腿,但是这些都是普遍*敏*感*词*钱也是我们所关心的。
因此,通过比较儿子的不同属性,我们可以知道哪些信息很重要。
通过一组有趣的算法返回网页采集的示例,提供网页的地址,然后软件会自动将其转换为Excel!
(不明白,您不明白吗?通常,不要注意这些细节!无论如何,您知道这是由沙漠先生设计的)
3.破解页面翻转限制
仅获取一页数据是不够的。我们需要获取所有页面的数据。这很简单。我们要求程序请求第一页,第二页...数据已采集。
就这么简单吗? 网站如何让您的珍贵数据如此容易地被带走?因此它只能转到第50页或第100页。Chain Home就像这样:
这并不打扰我们。每页上有30个数据,因此100页可以显示多达3000条数据。北京共有16个区县,每个县的社区数量绝对不是3000个,因此我们可以获得每个区和县的所有社区的列表。每个社区中的二手房不超过3,000个(最多的社区可能有300多个二手房待售),因此您可以获取所有的联家二手房。
哈哈哈,你对沙漠之王的智慧感到不知所措吗?然后我们启动抓取器,Hawk将为每个子线程(可以理解为机器人)分配任务:为我抓取该社区中的所有二手房!
然后,您将看到一个壮观的场景:一堆小型机器人协同工作以从网站中移出数据,是否有超级牛Xunlei?同时执行100个任务!从厕所回来后,我抓到了。
4.清洁:识别并转换内容
获得的数据如下:
但是您将看到,其中有些奇怪的字符应该删除。 xx平方米应提取的所有数字。而售价,有些是373万元,有些是213万元,这些都很难应付。
没关系! Hawk可以自动识别所有数据:
哈哈,那么您可以轻松地使用这些数据进行分析,纯净无污染!
5.破解网站需要登录
当然,这里的意思不是破解用户名和密码。沙漠之王还不够强大。
网站的某些数据需要登录才能访问。这不会打扰我们。
当您打开Hawk的内置嗅探功能时,Hawk就像一个录音机,将记录您对目标网站的访问。然后它将根据需要重播以实现自动登录。
您是否担心Hawk保存您的用户名和密码?如何在不保存的情况下自动登录?但是Hawk是开源的,所有代码都已经过审查并且是安全的。您的私人信息将仅位于您自己的硬盘中。
![简单自动嗅探]](Simple automatic sniffing.png)
(我们像这样自动登录到dianping)
6.我也可以捕获数据吗?
从理论上讲是可以的,但是道路就像魔术一样高,不同的网站有很大的不同,并且有许多对抗爬行动物的技术。爬虫对细节非常敏感。只要您犯了一个错误,接下来的步骤就可能不会继续。
我该怎么办? Desert先生保存并共享以前的操作,您只需加载这些文件即可快速获取数据。
如果您还有其他网站采集需求,则可以咨询周围的程序员,要求他们帮助捕获数据,或者让他们尝试Hawk来看看谁更有效。
如果您是文科生还是女孩,我建议您看看东野圭吾(Keigo Higashino)和村上春树(Haruki Murakami)。直接使用如此复杂的软件(已经有很多流血的*敏*感*词*)会让您发疯。
7.在哪里可以获取软件和教程?
有关软件教程和下载链接,请参阅Desert先生的技术博客,在百度(黑色)上搜索“*敏*感*词*博客园”,然后:
第二个是。最新版本已在百度网盘上发布。