Python爬虫直接转Excel，无需数据库

优采云发布时间: 2023-05-16 14:27

　　在数据分析和处理中，爬虫技术已经成为一个很重要的工具。而将爬取的数据整理成Excel格式，也是我们日常工作中常用的方式之一。但是，在进行这个过程时，往往需要借助数据库来存储数据，这无疑增加了操作难度和时间成本。今天，我将分享如何通过Python实现从网站爬取数据到生成Excel表格，而不需要使用数据库。

　　一、Python库介绍

　　在介绍具体实现方法之前，先来看看我们需要用到哪些Python库：

　　1. requests：用于发送HTTP请求；

　　2. BeautifulSoup：解析HTML和XML文档；

　　3. pandas：处理数据；

　　4. openpyxl：生成Excel表格。

　　以上四个库是今天文章的核心库。如果你还没有安装它们，请使用pip进行安装。

　　二、爬虫实现

　　首先，我们需要确定目标网站，并且获取它提供的API接口。这里以“优采云”为例。优采云提供了一个API接口，可以获取它网站上所有商品的信息。以下代码演示了如何使用requests库发送HTTP请求，并将返回的JSON数据转化为Python字典：

import requests

url ='https://www.ucaiyun.com/api/products'

response = requests.get(url)

data = response.json()

　　以上代码中，我们使用requests库发送了一个GET请求，并将返回的JSON数据转化为Python字典。接下来，我们需要使用BeautifulSoup库解析这个字典，获取所需的数据。

　　以下是使用BeautifulSoup库解析HTML代码的一个例子：

from bs4 import BeautifulSoup

html_doc ="""

<html>

<body>

爬虫网站到excel不需要数据库

本文将介绍如何通过Python实现从网站爬取数据到生成Excel表格，而不需要使用数据库。

优采云，SEO优化，www.ucaiyun.com

</body>

</html>

"""

soup = BeautifulSoup(html_doc,'html.parser')

print(soup.prettify())

　　以上代码中，我们首先定义了一个HTML文档，并使用BeautifulSoup库进行解析。其中，'html.parser'指定了解析器为Python自带的HTML解析器。接下来，我们可以使用各种方法获取HTML文档中的元素。

　　三、数据处理

　　在获取到网站上的数据之后，我们需要对它进行处理。这里我以“优采云”为例，演示如何使用pandas库进行数据处理。

　　以下代码展示了如何将“优采云”API接口返回的JSON数据转化为pandas.DataFrame格式：

import pandas as pd

df = pd.DataFrame(data['data'])

　　以上代码中，我们首先将“优采云”API接口返回的JSON数据转化为Python字典，再将其转化为pandas.DataFrame格式。接下来，我们可以使用pandas库提供的各种方法对数据进行处理。

　　四、生成Excel表格

　　在对数据进行处理之后，我们需要将其保存为Excel表格。这里我使用了openpyxl库。

　　以下是将pandas.DataFrame数据保存为Excel表格的代码：

from openpyxl import Workbook

wb = Workbook()

ws = wb.active

for row in df.iterrows():

values = row[1]

ws.append(values)

wb.save('优采云商品信息.xlsx')

　　以上代码中，我们首先创建一个Workbook对象，并使用它创建一个Sheet对象。然后，我们遍历pandas.DataFrame中的每一行数据，并将其写入到Excel表格中。最后，我们使用Workbook对象的save()方法保存Excel表格。

　　五、完整代码

　　以上是爬虫从网站到Excel的完整实现方法。以下是完整代码：