从网页抓取数据(推荐:如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)
优采云 发布时间: 2022-02-17 02:08从网页抓取数据(推荐:如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)
文章目录
使用 BeautifulSoup 从 HTML 中抓取 URL 链接
互联网是一个数据池,只要具备适当的技能,就可以使用它来获取大量新信息。您可以将数据复制粘贴到您的 excel 或 CSV 文件中,但这也既耗时又昂贵。Web 抓取、Web 采集或 Web 数据提取是用于从 网站 中提取数据的数据抓取。
BeautifulSoup 是 Python 提供的一个流行的库,用于从网络上抓取数据。要充分利用它,您只需要具备本指南中介绍的 HTML 的基本知识。这篇博文向您介绍了如何使用 BeautifulSoup 从 HTML 中抓取 URL 链接。
推荐:Python 函数对象
网页的组成部分
如果您了解基本的 HTML,则可以跳过本节。任何网页的基本语法是:
My first Web Scraping with Beautiful soup
<p>Let's scrap the website using python.
</p>
HTML 中的每个标记都可以具有有助于唯一标识元素的属性信息(即类、id、href 和其他有用信息)。
推荐:如何用 BeautifulSoup 抓取网页
获取任何 网站 的步骤
在本文中,我们将了解如何使用 Python 从 URL 或 HTML 文档中提取所有链接。所需库:
bs4 (BeautifulSoup):它是 python 中的一个库,可以轻松地从网页中抓取信息,并有助于从 HTML 和 XML 文件中提取数据。这个库需要从外部下载,因为它没有随 Python 包一起提供。要安装此库,请在终端中键入以下命令。
pip install bs4
requests:这个库使发送 HTTP 请求和获取 Web 内容变得容易。这个库也需要从外部下载,因为它没有随 Python 包提供。要安装此库,请在终端中键入以下命令。
pip install requests
了解和检查网页源数据
现在您已经了解了基本的 HTML 及其标签,您需要首先检查要抓取的页面。检查是网页抓取中最重要的工作;如果不了解网页的结构,就很难获得所需的信息。为了帮助检查,每个浏览器(如 Google Chrome 或 Mozilla Firefox)都带有一个名为开发者工具的便捷工具。
要了解您想要抓取的任何元素,只需右键单击文本并检查元素的标签和属性。
推荐:如何从零基础开始学习Python
BeautifulSoup 从 HTML 中抓取链接的步骤:
实施:
from bs4 import BeautifulSoup
import requests
import re
# function to extract html document from given url
def getHTMLdocument(url):
response = requests.get(url)
return response.text
url_to_scrape = "https://top.baidu.com/board?tab=realtime"
html_document = getHTMLdocument(url_to_scrape)
soup = BeautifulSoup(html_document, 'html.parser')
# find all the anchor tags with "href"
for link in soup.find_all('a',
attrs={'href': re.compile("^https://")}):
# display the actual urls
print(link.get('href'))
输出:
https://www.baidu.com/s?wd=%E5%86%B0%E9%9B%AA%E4%B8%BA%E5%AA%92+%E5%85%B1%E8%B5%B4%E5%86%AC%E5%A5%A5%E4%B9%8B%E7%BA%A6&sa=fyb_news&rsv_dl=fyb_news
https://www.baidu.com/s?wd=%E5%86%B0%E9%9B%AA%E4%B8%BA%E5%AA%92+%E5%85%B1%E8%B5%B4%E5%86%AC%E5%A5%A5%E4%B9%8B%E7%BA%A6&sa=fyb_news&rsv_dl=fyb_news
https://www.baidu.com/s?wd=31%E7%9C%81%E4%BB%BD%E6%96%B0%E5%A2%9E%E6%9C%AC%E5%9C%9F%E7%A1%AE%E8%AF%8A56%E4%BE%8B+%E5%B9%BF%E8%A5%BF33%E4%BE%8B&sa=fyb_news&rsv_dl=fyb_news
https://www.baidu.com/s?wd=31%E7%9C%81%E4%BB%BD%E6%96%B0%E5%A2%9E%E6%9C%AC%E5%9C%9F%E7%A1%AE%E8%AF%8A56%E4%BE%8B+%E5%B9%BF%E8%A5%BF33%E4%BE%8B&sa=fyb_news&rsv_dl=fyb_news
.......
总结
以上就是博客介绍的使用BeautifulSoup从HTML爬取URL链接的全部内容。现在您已经了解了基本的 HTML 及其标签,以及简单地使用 Python 代码来抓取 网站 数据。希望它可以帮助你。
推荐:美汤教程
评价 文章
知乎博客,保留所有权利丨如未注明,即为原创
了解博客 » 使用 BeautifulSoup 从 HTML 中抓取 URL 链接