从网页抓取数据(推荐：如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)

优采云发布时间: 2022-02-17 02:08

　　文章目录

　　使用 BeautifulSoup 从 HTML 中抓取 URL 链接

　　互联网是一个数据池，只要具备适当的技能，就可以使用它来获取大量新信息。您可以将数据复制粘贴到您的 excel 或 CSV 文件中，但这也既耗时又昂贵。Web 抓取、Web 采集或 Web 数据提取是用于从网站中提取数据的数据抓取。

　　BeautifulSoup 是 Python 提供的一个流行的库，用于从网络上抓取数据。要充分利用它，您只需要具备本指南中介绍的 HTML 的基本知识。这篇博文向您介绍了如何使用 BeautifulSoup 从 HTML 中抓取 URL 链接。

　　推荐：Python 函数对象

　　网页的组成部分

　　如果您了解基本的 HTML，则可以跳过本节。任何网页的基本语法是：

My first Web Scraping with Beautiful soup

<p>Let's scrap the website using python.

</p>

　　HTML 中的每个标记都可以具有有助于唯一标识元素的属性信息（即类、id、href 和其他有用信息）。

　　推荐：如何用 BeautifulSoup 抓取网页

　　获取任何网站的步骤

　　在本文中，我们将了解如何使用 Python 从 URL 或 HTML 文档中提取所有链接。所需库：

　　bs4 (BeautifulSoup)：它是 python 中的一个库，可以轻松地从网页中抓取信息，并有助于从 HTML 和 XML 文件中提取数据。这个库需要从外部下载，因为它没有随 Python 包一起提供。要安装此库，请在终端中键入以下命令。

　　pip install bs4

　　requests：这个库使发送 HTTP 请求和获取 Web 内容变得容易。这个库也需要从外部下载，因为它没有随 Python 包提供。要安装此库，请在终端中键入以下命令。

　　pip install requests

　　了解和检查网页源数据

　　现在您已经了解了基本的 HTML 及其标签，您需要首先检查要抓取的页面。检查是网页抓取中最重要的工作；如果不了解网页的结构，就很难获得所需的信息。为了帮助检查，每个浏览器（如 Google Chrome 或 Mozilla Firefox）都带有一个名为开发者工具的便捷工具。

　　要了解您想要抓取的任何元素，只需右键单击文本并检查元素的标签和属性。

　　推荐：如何从零基础开始学习Python

　　BeautifulSoup 从 HTML 中抓取链接的步骤：

　　实施：

　　from bs4 import BeautifulSoup

import requests

import re

# function to extract html document from given url

def getHTMLdocument(url):

response = requests.get(url)

return response.text

url_to_scrape = "https://top.baidu.com/board?tab=realtime"

html_document = getHTMLdocument(url_to_scrape)

soup = BeautifulSoup(html_document, 'html.parser')

# find all the anchor tags with "href"

for link in soup.find_all('a',

attrs={'href': re.compile("^https://")}):

# display the actual urls

print(link.get('href'))

　　输出：

　　https://www.baidu.com/s?wd=%E5%86%B0%E9%9B%AA%E4%B8%BA%E5%AA%92+%E5%85%B1%E8%B5%B4%E5%86%AC%E5%A5%A5%E4%B9%8B%E7%BA%A6&sa=fyb_news&rsv_dl=fyb_news

https://www.baidu.com/s?wd=31%E7%9C%81%E4%BB%BD%E6%96%B0%E5%A2%9E%E6%9C%AC%E5%9C%9F%E7%A1%AE%E8%AF%8A56%E4%BE%8B+%E5%B9%BF%E8%A5%BF33%E4%BE%8B&sa=fyb_news&rsv_dl=fyb_news

.......

　　总结

　　以上就是博客介绍的使用BeautifulSoup从HTML爬取URL链接的全部内容。现在您已经了解了基本的 HTML 及其标签，以及简单地使用 Python 代码来抓取网站数据。希望它可以帮助你。

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

从网页抓取数据(推荐：如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)

0 个评论

发起人

AI时代内容工厂

从网页抓取数据(推荐：如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)

0 个评论

发起人

相关问题