Python中的网络爬虫库获取网页的示例程序是什么？

优采云发布时间: 2021-07-13 21:17

　　1 什么是网络爬虫

　　网络爬虫是指从网站中提取数据的技术，可以将非结构化数据转化为结构化数据。

　　网络爬虫的目的是从网站中提取数据。提取的数据可以存储在本地文件中并保存在系统中，也可以以表格的形式存储在数据库中。网络爬虫使用 HTTP 或网络浏览器直接访问万维网 (WWW)。网络爬虫或机器人抓取网页的过程是一个自动化过程。

　　抓取网页的过程分为网页获取和数据提取。网络爬虫可以抓取网页，是网络爬虫的必备组件。获取网页后，需要提取网页数据。我们可以对提取的数据进行搜索、解析，并将其保存在表格中，然后重新排列格式。

　　2 数据提取

　　在本节中，我们将了解数据提取。我们可以使用 Python 的 BeautifulSoup 库进行数据提取。这里还需要 Python 库的 Requests 模块。

　　运行以下命令来安装 Requests 和 BeautifulSoup 库。

　　$ pip3 install requests

$ pip3 install beautifulsoup4

　　2.1Requests 库

　　使用请求库以易于理解的格式在 Python 脚本中使用 HTTP。在这里，使用 Python 中的 Requests 库来获取网页。 Requests 库收录不同类型的请求，这里使用 GET 请求。 GET请求用于从Web服务器获取信息，通过GET请求可以获取指定网页的HTML内容。每个请求对应一个状态码，从服务器返回。这些状态码为我们提供了相应请求执行结果的相关信息。以下是一些状态代码。

　　2.2BeautifulSoup 库

　　BeautifulSoup 也是一个 Python 库，收录简单的搜索、导航和修改方法。它只是一个从网页中提取所需数据的工具包。

　　要在脚本中使用 Requests 和 BeautifulSoup 模块，必须使用 import 语句导入这两个模块。现在让我们看一个用于解析网页的示例程序。在这里，我们将解析来自百度网站的新闻网页。创建一个脚本，命名为parse_web_page.py，在里面写入如下代码。

　　import requests

from bs4 import BeautifulSoup

page_result = requests.get('https://www.news.baidu.com')

parse_obj = BeautifulSoup(page_result.content, 'html.parser')

print(parse_obj)

　　运行如下所示的脚本程序。

　　student@ubuntu:~/work$ python3 parse_web_page.py

Output:

var IMDbTimer={starttime: new

Date().getTime(),pt:'java'};

if (typeof uet == 'function') {

uet("bb", "LoadTitle", {wb: 1});

}

(function(t){ (t.events = t.events || {})["csm_head_pre_title"] =

new Date().getTime(); })(IMDbTimer);

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

Python中的网络爬虫库获取网页的示例程序是什么？

0 个评论

发起人