网页抓取数据 免费(小编查阅了各式资料,整理出简单好用的操作方法帮助)

优采云 发布时间: 2021-09-18 04:07

  网页抓取数据 免费(小编查阅了各式资料,整理出简单好用的操作方法帮助)

  本文文章主要介绍“如何使用Python抓取网页数据”。在日常操作中,我相信很多人对如何使用Python抓取网页数据有疑问。小编查阅了各种资料,整理出简单易用的操作方法,希望能帮助您解决“如何用Python抓取网页数据”的疑问!接下来请跟随小编学习

  预备

  IDE:PyCharm

  库:请求,lxml

  注:

  请求:获取网页源代码

  Lxml:获取网页源代码中的指定数据

  建筑环境

  这里的构建环境不是python开发环境。这里的构建环境意味着我们使用Python创建一个新的Python项目,然后发出请求和lxml

  创建新项目:

  

  依赖库导入

  因为我们使用pycharm,所以导入这两个库非常容易

  import requests

  此时,请求将给出一条红线。此时,我们将光标指向请求并按快捷键:Alt+enter。Pycharm将给出一个解决方案。此时,选择InstallPackageRequests,pycharm将自动为我们安装它。我们只需稍等片刻,库就可以安装了。Lxml的安装方式与此相同

  

  获取网页源代码

  正如我之前所说,请求可以很容易地让我们获得网页的源代码

  以我的博客地址为例:

  获取源代码:

  # 获取源码

html = requests.get("https://coder-lida.github.io/")

# 打印源码

print html.text

  代码非常简单。这是HTML。Text是此URL的源代码

  完整代码:

  import  requests

import lxml

html = requests.get("https://coder-lida.github.io/")

print (html.text)

  打印:

  

  获取指定的数据

  现在我们已经获得了web源代码,我们需要使用lxml过滤掉我们需要的信息

  这里,我以获取我的博客列表为例。您可以找到原创页面并通过F12查看XPath,如图所示

  

  通过XPath语法获取网页内容

  查看第一个文章标题

  //*[@id="layout-cart"]/div[1]/a/@title

  //定位根节点

  /俯视

  提取文本内容:/text()

  提取属性内容:/@XXXX

  import  requests

from lxml import etree

html = requests.get("https://coder-lida.github.io/")

#print (html.text)

etree_html = etree.HTML(html.text)

content = etree_html.xpath('//*[@id="layout-cart"]/div[1]/a/@title')

print(content)

  查看所有文章标题

  //*[@id="layout-cart"]/div/a/@title

  代码:

  import  requests

from lxml import etree

html = requests.get("https://coder-lida.github.io/")

#print (html.text)

etree_html = etree.HTML(html.text)

content = etree_html.xpath('//*[@id="layout-cart"]/div/a/@title')

print(content)

  输出:

  [' springboot逆向工程 ', ' 自己实现一个简单版的HashMap ', ' 开发中常用的 25 个JavaScript 单行代码 ', ' shiro 加密登录 密码加盐处理 ', ' Spring Boot构建RESTful API与单元测试  ', ' 记一次jsoup的使用 ']

  

  现在,“如何用Python抓取网页数据”的学习已经结束。我希望我们能解决你的疑问。理论和实践的结合能更好地帮助你学习。去试试吧!如果您想继续学习更多相关知识,请继续关注伊苏云网站,小编将继续努力为您带来更实用的文章@

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线