抓取网页数据违法吗( 爬虫是什么网络爬虫(又被称为网页蜘蛛、网络机器人) )

优采云 发布时间: 2021-12-18 09:12

  抓取网页数据违法吗(

爬虫是什么网络爬虫(又被称为网页蜘蛛、网络机器人)

)

  

  01 什么是爬虫

  网络爬虫(也称为网络蜘蛛、网络机器人,在 FOAF 社区中更常见的网络追逐者)是根据某些规则自动抓取万维网上信息的程序或脚本。其他不太常用的名称包括蚂蚁、自动索引、模拟器或蠕虫。

  网络爬虫的工作原理是爬取 Internet 上 网站 服务器的内容。它是用计算机语言编写的程序或脚本,用于自动从互联网上获取信息或数据,扫描并抓取每个需要的页面上的一些信息,直到处理完所有可以正常打开的页面。

  作为搜索引擎的重要组成部分,爬虫的主要功能是抓取网页数据(如图2-1所示)。目前市场上流行的采集器软件都是利用网络爬虫的原理或功能。

  

  ▲图2-1 网络爬虫象形图

  02 爬虫的含义

  现在大数据时代已经到来,网络爬虫技术已经成为这个时代不可或缺的一部分。公司需要数据来分析用户行为、其产品的缺陷以及竞争对手的信息。所有这一切的第一个条件是数据。采集。

  网络爬虫的价值其实就是数据的价值。在互联网社会,数据是无价的。一切都是数据。谁拥有大量有用的数据,谁就拥有决策的主动权。网络爬虫的应用领域有很多,比如搜索引擎、数据采集、广告过滤、大数据分析等。

  1) 抓取各大电商网站的产品销售信息和用户评论进行分析,如图2-2所示。

  

  ▲图2-2 电商网站产品销售信息

  2)分析大众点评、美团等餐饮网站的用户消费、评价及发展趋势,如图2-3所示。

  

  ▲图2-3 餐饮用户消费信息网站

  3)分析各城市中学区的房屋比例,学区房的价格比普通二手房高出多少,如图2-4所示。

  

  ▲图2-4 学区房占比及价格对比

  以上数据是通过预嗅探ForeSpider数据采集软件爬取下来的。有兴趣的读者可以尝试自己爬取一些数据。

  03 爬虫原理

  我们通常将网络爬虫的组件模块分为初始链接库、网络爬取模块、网页处理模块、网页分析模块、DNS模块、待爬取的链接队列、网页库等。形成一个循环系统不断地分析和捕获。

  爬虫的工作原理可以简单的解释为先找到目标信息网络,然后是页面爬取模块,然后是页面分析模块,最后是数据存储模块。具体细节如图2-5所示。

  

  ▲图2-5 履带*敏*感*词*

  爬虫工作的基本过程:

  首先在互联网上选择一部分网页,将这些网页的链接地址作为*敏*感*词*网址;

  将这些*敏*感*词*URL放入待爬取的URL队列,爬虫从待爬取的URL队列中依次读取;

  通过DNS解析URL;

  将链接地址转换为网站服务器对应的IP地址;

  网页下载器通过网站服务器下载网页;

  下载的网页为网页文件形式;

  提取网页文档中的网址;

  过滤掉已经爬取过的网址;

  没有被爬取的URL继续循环爬取,直到待爬取的URL队列为空。

  04 履带技术的种类

  有关爬虫类型的更详细说明,请单击此处。

  作者简介:赵国胜,哈尔滨师范大学教授,工学博士,硕士生导师,黑龙江省网络安全技术领域特殊人才。主要从事可信网络、入侵容忍、认知计算、物联网安全等方面的教学和科研工作。

  本文摘自《Python Web爬虫技术与实战》,经发布者授权发布。

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线