网页抓取数据免费(小编查阅了各式资料，整理出简单好用的操作方法帮助)

优采云发布时间: 2021-09-18 04:07

　　本文文章主要介绍“如何使用Python抓取网页数据”。在日常操作中，我相信很多人对如何使用Python抓取网页数据有疑问。小编查阅了各种资料，整理出简单易用的操作方法，希望能帮助您解决“如何用Python抓取网页数据”的疑问！接下来请跟随小编学习

　　预备

　　IDE:PyCharm

　　库：请求，lxml

　　注:

　　请求：获取网页源代码

　　Lxml：获取网页源代码中的指定数据

　　建筑环境

　　这里的构建环境不是python开发环境。这里的构建环境意味着我们使用Python创建一个新的Python项目，然后发出请求和lxml

　　创建新项目：

　　依赖库导入

　　因为我们使用pycharm，所以导入这两个库非常容易

　　import requests

　　此时，请求将给出一条红线。此时，我们将光标指向请求并按快捷键：Alt+enter。Pycharm将给出一个解决方案。此时，选择InstallPackageRequests，pycharm将自动为我们安装它。我们只需稍等片刻，库就可以安装了。Lxml的安装方式与此相同

　　获取网页源代码

　　正如我之前所说，请求可以很容易地让我们获得网页的源代码

　　以我的博客地址为例：

　　获取源代码：

　　# 获取源码

html = requests.get("https://coder-lida.github.io/")

# 打印源码

print html.text

　　代码非常简单。这是HTML。Text是此URL的源代码

　　完整代码：

　　import requests

import lxml

html = requests.get("https://coder-lida.github.io/")

print (html.text)

　　打印：

　　获取指定的数据

　　现在我们已经获得了web源代码，我们需要使用lxml过滤掉我们需要的信息

　　这里，我以获取我的博客列表为例。您可以找到原创页面并通过F12查看XPath，如图所示

　　通过XPath语法获取网页内容

　　查看第一个文章标题

　　//*[@id="layout-cart"]/div[1]/a/@title

　　//定位根节点

　　/俯视

　　提取文本内容：/text（）

　　提取属性内容：/@XXXX

　　import requests

from lxml import etree

html = requests.get("https://coder-lida.github.io/")

#print (html.text)

etree_html = etree.HTML(html.text)

content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')

print(content)

　　查看所有文章标题

　　//*[@id="layout-cart"]/div/a/@title

　　代码：

　　import requests

from lxml import etree

html = requests.get("https://coder-lida.github.io/")

#print (html.text)

etree_html = etree.HTML(html.text)

content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')

print(content)

　　输出：

　　[' springboot逆向工程 ', ' 自己实现一个简单版的HashMap ', ' 开发中常用的 25 个JavaScript 单行代码 ', ' shiro 加密登录密码加盐处理 ', ' Spring Boot构建RESTful API与单元测试 ', ' 记一次jsoup的使用 ']

　　现在，“如何用Python抓取网页数据”的学习已经结束。我希望我们能解决你的疑问。理论和实践的结合能更好地帮助你学习。去试试吧！如果您想继续学习更多相关知识，请继续关注伊苏云网站，小编将继续努力为您带来更实用的文章@

0

2021-09-18

网页抓取数据免费

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取数据免费(小编查阅了各式资料，整理出简单好用的操作方法帮助)

0 个评论

发起人

AI时代内容工厂

网页抓取数据 免费(小编查阅了各式资料，整理出简单好用的操作方法帮助)

0 个评论

发起人

网页抓取数据免费(小编查阅了各式资料，整理出简单好用的操作方法帮助)