网页抓取数据 免费(小编查阅了各式资料,整理出简单好用的操作方法帮助)
优采云 发布时间: 2021-09-18 04:07网页抓取数据 免费(小编查阅了各式资料,整理出简单好用的操作方法帮助)
本文文章主要介绍“如何使用Python抓取网页数据”。在日常操作中,我相信很多人对如何使用Python抓取网页数据有疑问。小编查阅了各种资料,整理出简单易用的操作方法,希望能帮助您解决“如何用Python抓取网页数据”的疑问!接下来请跟随小编学习
预备
IDE:PyCharm
库:请求,lxml
注:
请求:获取网页源代码
Lxml:获取网页源代码中的指定数据
建筑环境
这里的构建环境不是python开发环境。这里的构建环境意味着我们使用Python创建一个新的Python项目,然后发出请求和lxml
创建新项目:
依赖库导入
因为我们使用pycharm,所以导入这两个库非常容易
import requests
此时,请求将给出一条红线。此时,我们将光标指向请求并按快捷键:Alt+enter。Pycharm将给出一个解决方案。此时,选择InstallPackageRequests,pycharm将自动为我们安装它。我们只需稍等片刻,库就可以安装了。Lxml的安装方式与此相同
获取网页源代码
正如我之前所说,请求可以很容易地让我们获得网页的源代码
以我的博客地址为例:
获取源代码:
# 获取源码
html = requests.get("https://coder-lida.github.io/")
# 打印源码
print html.text
代码非常简单。这是HTML。Text是此URL的源代码
完整代码:
import requests
import lxml
html = requests.get("https://coder-lida.github.io/")
print (html.text)
打印:
获取指定的数据
现在我们已经获得了web源代码,我们需要使用lxml过滤掉我们需要的信息
这里,我以获取我的博客列表为例。您可以找到原创页面并通过F12查看XPath,如图所示
通过XPath语法获取网页内容
查看第一个文章标题
//*[@id="layout-cart"]/div[1]/a/@title
//定位根节点
/俯视
提取文本内容:/text()
提取属性内容:/@XXXX
import requests
from lxml import etree
html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')
print(content)
查看所有文章标题
//*[@id="layout-cart"]/div/a/@title
代码:
import requests
from lxml import etree
html = requests.get("https://coder-lida.github.io/")
#print (html.text)
etree_html = etree.HTML(html.text)
content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')
print(content)
输出:
[' springboot逆向工程 ', ' 自己实现一个简单版的HashMap ', ' 开发中常用的 25 个JavaScript 单行代码 ', ' shiro 加密登录 密码加盐处理 ', ' Spring Boot构建RESTful API与单元测试 ', ' 记一次jsoup的使用 ']
现在,“如何用Python抓取网页数据”的学习已经结束。我希望我们能解决你的疑问。理论和实践的结合能更好地帮助你学习。去试试吧!如果您想继续学习更多相关知识,请继续关注伊苏云网站,小编将继续努力为您带来更实用的文章@