从网页抓取数据(推荐:如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)

优采云 发布时间: 2022-02-17 02:08

  从网页抓取数据(推荐:如何使用BeautifulSoup抓取网页抓取任何任何网站的组件)

  文章目录

  使用 BeautifulSoup 从 HTML 中抓取 URL 链接

  互联网是一个数据池,只要具备适当的技能,就可以使用它来获取大量新信息。您可以将数据复制粘贴到您的 excel 或 CSV 文件中,但这也既耗时又昂贵。Web 抓取、Web 采集或 Web 数据提取是用于从 网站 中提取数据的数据抓取。

  

  BeautifulSoup 是 Python 提供的一个流行的库,用于从网络上抓取数据。要充分利用它,您只需要具备本指南中介绍的 HTML 的基本知识。这篇博文向您介绍了如何使用 BeautifulSoup 从 HTML 中抓取 URL 链接。

  推荐:Python 函数对象

  网页的组成部分

  如果您了解基本的 HTML,则可以跳过本节。任何网页的基本语法是:

  

My first Web Scraping with Beautiful soup

<p>Let's scrap the website using python.

</p>

  HTML 中的每个标记都可以具有有助于唯一标识元素的属性信息(即类、id、href 和其他有用信息)。

  

  推荐:如何用 BeautifulSoup 抓取网页

  获取任何 网站 的步骤

  在本文中,我们将了解如何使用 Python 从 URL 或 HTML 文档中提取所有链接。所需库:

  bs4 (BeautifulSoup):它是 python 中的一个库,可以轻松地从网页中抓取信息,并有助于从 HTML 和 XML 文件中提取数据。这个库需要从外部下载,因为它没有随 Python 包一起提供。要安装此库,请在终端中键入以下命令。

  pip install bs4

  requests:这个库使发送 HTTP 请求和获取 Web 内容变得容易。这个库也需要从外部下载,因为它没有随 Python 包提供。要安装此库,请在终端中键入以下命令。

  pip install requests

  了解和检查网页源数据

  现在您已经了解了基本的 HTML 及其标签,您需要首先检查要抓取的页面。检查是网页抓取中最重要的工作;如果不了解网页的结构,就很难获得所需的信息。为了帮助检查,每个浏览器(如 Google Chrome 或 Mozilla Firefox)都带有一个名为开发者工具的便捷工具。

  要了解您想要抓取的任何元素,只需右键单击文本并检查元素的标签和属性。

  

  推荐:如何从零基础开始学习Python

  BeautifulSoup 从 HTML 中抓取链接的步骤:

  

  实施:

  from bs4 import BeautifulSoup

import requests

import re

# function to extract html document from given url

def getHTMLdocument(url):

response = requests.get(url)

return response.text

url_to_scrape = "https://top.baidu.com/board?tab=realtime"

html_document = getHTMLdocument(url_to_scrape)

soup = BeautifulSoup(html_document, 'html.parser')

# find all the anchor tags with "href"

for link in soup.find_all('a',

attrs={'href': re.compile("^https://")}):

# display the actual urls

print(link.get('href'))

  输出:

  https://www.baidu.com/s?wd=%E5%86%B0%E9%9B%AA%E4%B8%BA%E5%AA%92+%E5%85%B1%E8%B5%B4%E5%86%AC%E5%A5%A5%E4%B9%8B%E7%BA%A6&sa=fyb_news&rsv_dl=fyb_news

https://www.baidu.com/s?wd=%E5%86%B0%E9%9B%AA%E4%B8%BA%E5%AA%92+%E5%85%B1%E8%B5%B4%E5%86%AC%E5%A5%A5%E4%B9%8B%E7%BA%A6&sa=fyb_news&rsv_dl=fyb_news

https://www.baidu.com/s?wd=31%E7%9C%81%E4%BB%BD%E6%96%B0%E5%A2%9E%E6%9C%AC%E5%9C%9F%E7%A1%AE%E8%AF%8A56%E4%BE%8B+%E5%B9%BF%E8%A5%BF33%E4%BE%8B&sa=fyb_news&rsv_dl=fyb_news

https://www.baidu.com/s?wd=31%E7%9C%81%E4%BB%BD%E6%96%B0%E5%A2%9E%E6%9C%AC%E5%9C%9F%E7%A1%AE%E8%AF%8A56%E4%BE%8B+%E5%B9%BF%E8%A5%BF33%E4%BE%8B&sa=fyb_news&rsv_dl=fyb_news

.......

  总结

  以上就是博客介绍的使用BeautifulSoup从HTML爬取URL链接的全部内容。现在您已经了解了基本的 HTML 及其标签,以及简单地使用 Python 代码来抓取 网站 数据。希望它可以帮助你。

  推荐:美汤教程

  评价 文章

  知乎博客,保留所有权利丨如未注明,即为原创

  了解博客 » 使用 BeautifulSoup 从 HTML 中抓取 URL 链接

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线