抓取网页生成电子书(从当当网上采集数据的过程为例,你了解多少?)

优采云 发布时间: 2021-11-13 03:19

  抓取网页生成电子书(从当当网上采集数据的过程为例,你了解多少?)

  所谓“网页数据抓取”,也称为网页数据采集、网页数据采集等,就是从我们平时查看的网页中提取需要的数据信息浏览器,然后将结构以CSV、JSON、XML、ACCESS、MSSQL、MYSQL等格式存储在文件或数据库中的过程。当然,这里的数据提取过程是通过计算机软件技术实现的,而不是通过人工复制粘贴。也正因为如此,才有可能从*敏*感*词*的网站中采集。

  下面以作者从当当网获取采集数据的过程为例,详细讲解一下web数据抓取的基本过程。

  首先,我们需要分析目标网站的网页结构,判断网站上的数据是否可以采集以及如何采集。

  当当网是一个综合性的网站,这里以图书数据为例。检查后,我们找到了图书信息的目录页。图书信息以多级目录结构组织。如下图所示,图片左侧为图书信息一级目录:

  

  因为很多网站会出于数据保护的原因限制显示数据的数量,比如数据最多可以显示100页,超过100页的数据就不会显示。这样,如果您选择进入更高级别的目录,您可以获得的数据就越少。因此,为了获得尽可能多的数据,我们需要进入较低级别的目录,也就是更小的分类级别,以获得更多的数据。

  点击一级目录,进入二级图书目录,如下图:

  

  同理,依次点击每一级目录,最后可以进入底层目录,这里显示了该目录下所有可显示数据项的列表,我们称之为底层列表页面,如图:

  

  当然,这个列表页面很可能会被分成多个页面。我们在做数据采集的时候,需要遍历每个页面上的数据项,通过每个数据项上的链接,可以进入最终的数据页面,我们称之为详情页。如下所示:

  

  至此,获取详细数据的路径已经明确。接下来,我们将分析详细页面上有用的数据项,然后编写数据采集程序,以捕获我们感兴趣的数据。

  以下是作者编写的当当网图书数据网页数据爬取程序的部分代码:

  

  以下是作者采集得到的部分图书信息样本数据:

  

  至此,一个完整的网页数据抓取过程就完成了。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线