抓取网页数据(Python开发工程师--学习猿地-送9个上线商业项目Scraoy)

优采云发布时间: 2022-01-15 17:17

　　推荐课程：Python开发工程师--学猿地--送9个在线商业项目

　　Scraoy入门示例1——Scrapy介绍与安装&PyCharm安装&项目实战

　　一、Scrapy 的安装

　　1.Scrapy介绍

　　Scrapy 是一个应用程序框架，用于抓取网站数据并提取结构化数据。它可以用于一系列程序，包括数据挖掘、信息处理或存储历史数据。它最初是为网页抓取（更准确地说，网页抓取）而设计的，但也可用于获取 API（例如 Amazon Associates Web 服务）或通用网络爬虫返回的数据。

　　2.Scrapy 安装

　　建议使用 Anaconda 安装 Scrapy

　　Anaconda 是一个开源包和环境管理神器。Anaconda 包括 180 多个科学包及其依赖项，包括 conda 和 Python。从官网下载安装Anaconda（*敏*感*词*），根据自己的系统选择下载，安装，选择next继续安装，Install for选项选择Just for me，选择安装位置，等待安装完成。

　　安装完成后，打开命令行，输入conda install scrapy，根据提示按Y，即可下载所有Scrapy及其依赖包，从而完成安装。

　　注意：使用命令行安装scrapy包时，会出现下载超时问题，即下载失败。我们可以通过修改scrapy包的镜像文件来提高scrapy包的下载速度。你可以参考博客：

　　这时候测试Scrapy是否安装成功：在命令行窗口输入scrapy，回车。如果出现如下界面，则表示安装成功：

　　二、PyCharm 安装

　　1.PyCharm介绍

　　PyCharm 是一个 Python IDE，拥有一套完整的工具，可以帮助用户在使用 Python 语言进行开发时提高效率，例如调试、语法高亮、项目管理、代码跳转、智能感知、自动完成、单元测试、版本控制等。此外，IDE 还提供高级功能以支持 Django 框架下的专业 Web 开发。

　　2.PyCharm 安装

　　进入PyCharm官网，直接点击DownLoad下载，左边是专业版，右边是社区版，社区版免费，专业版免费试用。

　　如果我们之前没有下载过Python解释器，可以在等待安装的同时下载Python解释器，进入Python官网，根据系统和版本下载对应的压缩包。安装完成后，在环境变量 Path 中配置 Python 解释器的安装路径。你可以参考博客：

　　三、Scrapy抢豆瓣项目实战

　　前提条件：如果要在 PyCharm 中使用 Scrapy，首先必须在 PyCharm 中安装支持的 Scrapy 包。流程如下，点击File>>Settings...里面只有两个Package。如果点击时看到一个 Scrapy 包，则不需要安装它，只需执行以下步骤即可。

　　如果没有Scrapy包，点击“+”，搜索Scrapy包，点击Install Package进行安装

　　等待安装完成。

　　1.新项目

　　打开新安装的PyCharm，使用软件终端中的pycharm工具，如果找不到PyCharm终端在哪里，就是左下角的Terminal。

　　输入命令：scrapy startproject douban 这是使用命令行新建爬虫项目，如下图，图中项目名称为pythonProject

　　然后在命令行输入命令：cd douban进入生成项目的根目录

　　然后在终端继续输入命令：scrapy genspider douban_spider 生成douban_spider爬虫文件。

　　此时的项目结构如下图所示：

　　2.明确目标

　　我们要练习的网站是：

　　假设，我们获取 top250 电影的序列号、电影名称、介绍、星级、评论数、电影描述选项

　　至此，我们在 items.py 文件中定义抓取的数据项，代码如下：

　　在此处定义您的刮擦物品的模型

　　#

　　请参阅以下文档：

　　导入scrapy

　　豆瓣类（scrapy.Item）：

　　# define the fields for your item here like:

# name = scrapy.Field()

# 序列号

serial_number = scrapy.Field();

# 电影名

movie_name = scrapy.Field();

# 介绍

introduce = scrapy.Field();

# 星级

star = scrapy.Field();

# 评价数

evaluate = scrapy.Field();

# 描述

describe = scrapy.Field();

pass

　　3.接下来，我们需要创建爬虫并存储爬取的内容

　　在douban_spider.py爬虫文件中编写具体的逻辑代码，如下：

　　-- 编码：utf-8 --

　　导入scrapy

　　from ..items 导入豆瓣商品

　　豆瓣蜘蛛类蜘蛛（scrapy.Spider）：

　　name = '豆瓣蜘蛛'

　　# 允许的域名

allowed_domains = [‘movie.douban.com‘]

# 入口URL

start_urls = [‘https://movie.douban.com/top250‘]

def parse(self, response):

movie_list = response.xpath("//div[@class=‘article‘]//ol[@class=‘grid_view‘]/li")

#循环电影的条目

for i_item in movie_list:

#导入item，进行数据解析

douban_item = DoubanItem()

douban_item[‘serial_number‘] = i_item.xpath(".//div[@class=‘item‘]//em/text()").extract_first()

douban_item[‘movie_name‘] = i_item.xpath(".//div[@class=‘info‘]//div[@class=‘hd‘]/a/span[1]/text()").extract_first()

#如果文件有多行进行解析

content = i_item.xpath(".//div[@class=‘info‘]//div[@class=‘bd‘]/p[1]/text()").extract()

for i_content in content:

content_s ="".join( i_content.split())

douban_item[‘introduce‘] = content_s

douban_item[‘star‘] = i_item.xpath(".//span[@class=‘rating_num‘]/text()").extract_first()

douban_item[‘evaluate‘] = i_item.xpath(".//div[@class=‘star‘]//span[4]/text()").extract_first()

douban_item[‘describe‘] = i_item.xpath(".//p[@class=‘quote‘]/span/text()").extract_first()

print(douban_item)

yield douban_item

#解析下一页，取后一页的XPATH

next_link = response.xpath("//span[@class=‘next‘]/link/@href").extract()

if next_link:

next_link = next_link[0]

yield scrapy.Request("https://movie.douban.com/top250"+next_link,callback=self.parse)

　　这个时候不需要运行这个python文件，因为我们不是单独使用，所以不需要运行，允许报错，关于import引入的问题，关于绝对路径和主目录的相对路径，原因是我们使用的是相对路径“..items”，对相关内容感兴趣的同学可以去网上查找此类问题的解释。

　　4.存储内容

　　将爬取的内容存储为 json 或 csv 格式的文件

　　在命令行输入：scrapy crawl douban_spider -o test.json 或者 scrapy crawl douban_spider -o test.csv

　　将爬取的数据存储在 json 文件或 csv 文件中。

　　执行爬取命令后，当鼠标聚焦到项目面板时，会显示生成的 json 文件或 csv 文件。打开json或者csv文件后，如果里面什么都没有，那么我们需要做进一步的修改，修改代理USER_AGENT的内容，

　　USER_AGENT = 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, 像壁虎) Chrome/53.@ >0.2785.8 Safari/537.36'

　　如果存储在json文件中，所有内容都会以十六进制形式显示，可以通过相应的方法进行转码。这里就不多解释了，如下图所示：

　　并且存储在csv文件中，它会直接显示我们要爬取的所有内容，如下图：

　　至此，我们就完成了网站具体内容的爬取。接下来，我们需要对爬取的数据进行处理。

　　分割线------------------------------------------------ -------------------------------------------------- --------------------分割线

　　Scraoy 入门示例 2 --- 使用流水线实现

　　在本次实战中，需要重新创建项目或者安装scrapy包。参考上面的内容，新建项目的方法也参考上面的内容，这里不再赘述。

　　项目目录结构如下图所示：

　　一、管道简介

　　当我们通过Spider爬取数据，通过Item采集数据时，我们需要对数据做一些处理，因为我们爬取的数据不一定是我们想要的最终数据，可能还需要对数据进行清洗和验证。数据有效性。Scripy 中的 Pipeline 组件用于数据处理。Pipeline 组件是一个收录特定接口的类。它通常只负责一项功能的数据处理。在一个项目中可以同时启用多个管道。

　　二、在items.py中定义你要抓取的数据

　　首先打开一个新的pycharm项目，通过终端新建一个项目教程，在item中定义你要抓取的数据，比如电影名，代码如下：

　　在此处定义您的刮擦物品的模型

　　#

　　请参阅以下文档：

　　导入scrapy

　　类 TutorialItem(scrapy.Item):

　　# define the fields for your item here like:

name = scrapy.Field()

pass

　　豆瓣电影类（scrapy.Item）：

　　# define the fields for your item here like:

# name = scrapy.Field()

moiveName = scrapy.Field()

　　三、定义 pipeline.py 文件

　　爬虫实验：使用 Scrapy 抓取网页内容

　　标签：说唱参考逻辑代码目标服务下载获取数据免费试用

0

2022-01-15

抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据(Python开发工程师--学习猿地-送9个上线商业项目Scraoy)

0 个评论

发起人

AI时代内容工厂

抓取网页数据(Python开发工程师--学习猿地-送9个上线商业项目Scraoy)

0 个评论

发起人

相关问题