抓取网页数据违法吗(的文字及图片来源于网络,仅供学习、交流使用)

优采云 发布时间: 2022-01-10 16:16

  抓取网页数据违法吗(的文字及图片来源于网络,仅供学习、交流使用)

  提示:文章写好后可以自动生成目录,如何生成可以参考右边的帮助文档

  内容

  前言

  新手在路上,如有不对之处,请在评论区指正。

  本文文字和图片来源于网络,仅供学习交流使用,不得用于任何商业用途。版权归原作者所有。

  一、实施步骤

  (1)数据爬取:以requests请求为依据获取数据源。(没安装的兄弟自己安装)

  (2) UA 伪装:模拟浏览器访问 URL。

  (3) 数据解析:使用xpath语法处理数据。

  (4) 数据存储:获取所需数据后使用MongoDB进行存储。

  二、目标网站

  https://haikou.baixing.com/chongwujiaoyi/

  先分析目标网站

  

  点击链接后可以看到我们需要抓取的数据

  

  Ctrl+U打开网页源代码后,可以发现我们要的数据直接在网页上,接下来就开始吧!

  三、获取数据1.导入库

  import requests #请求网页

from lxml import html # 导入xpath

import pymongo # 用于连接mongoDB数据库

  由于版本原因,无法直接从lxml包中导入etree模块,需要多一步。

  etree = html.etree

  2.请求数据

  url = 'https://haikou.baixing.com/chongwujiaoyi/'

respsone = requests.get(url,headers=headers).content.decode('utf-8')

# print(respsone)

  2.1 获取一级链接

  先得到每只宠物的链接,然后就可以得到宠物的信息,f12打开开发者工具,然后检查元素,看到每只宠物的链接都有

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线