python数据采集
优采云 发布时间: 2020-08-26 06:16python数据采集
最近在学习python爬虫技术,研究了一下采集实现电商平台之一的拼多多商品数据,因为之前专注了解Java的知识,现在这段时间看了相关python的知识点,发现python重
开放、灵活。代码简约优美、模块好多,用简单的句子可以完成好多神奇的功能,非常方便我们的工作,
首先要了解哪些是python爬虫?即是一段手动抓取互联网信息的程序,从互联网上抓取于我们有价值的信息。
python爬虫构架主要由5个部份组成,分别是调度器、url管理器、网页下载器、网页解析器、应用程序去采集有价值的数据
调度器:相当于一台笔记本的cpu,主要负责调度url管理器、下载器、解析器之间的协调工作
url管理器:包括待爬取得url地址和已爬取得url地址,防止重复抓取url和循环抓取url,实现url管理器主要用三种形式,通过显存、数据库、缓存数据库来实现
网页下载器:通过传入一个人url地址来下载网页,将网页转换成一个字符串,网页下载器有urllib2(Python官方基础模块)包括须要登陆、代理、和cookie,requests(第三方包)
网页解析器:将一个网页字符串进行解析,可以根据我们得要求来提取出我们有用得信息,也可以按照DOM树得解析方法来解析。
网页解析器有正则表达式(直观,将网页转成字符串通过模糊匹配的方法来提取有价值的信息,当文档比较复杂的时侯,该方式提取数据的时侯才会特别的困难)、html.parser(Python自带的)、
beautifulsoup(第三方插件,可以使用Python自带的html.parser进行解析,也可以使用lxml进行解析,相对于其他几种来说要强悍一些)、lxml(第三方插件,可以解析 xml 和 HTML),
html.parser 和 beautifulsoup 以及 lxml 都是以 DOM 树的方法进行解析的。
应用程序:从网页中提取得有用数据组成得一个应用
了解了一些大约得知识点之后,自己也进行了实际操作,采集了拼多多得一些数据,拼多多能采集得范围能依据不同得关键词进行搜索后,能采集道商品店面得名子、商品标题、商品价钱、商品图片url、商品url、商品销量
就如关键词---手机,进行搜索如下:
采集的手机数据结果如下:
如关键词--口红 进行搜索如下:
采集的唇膏数据结果如下:
不同关键词可以采集不同的数据,并将数据凸显不同的格式,数据的搜集也易于剖析相关关键词商品的销量数更高,针对不同的需求和不同的网站平台的数据都可以做相应数据的数据采集和数据剖析业务,进而可以按照对应的业务做相应的营运或营销策略