抓取网页数据违法吗(的文字及图片来源于网络,仅供学习、交流使用)
优采云 发布时间: 2022-01-10 16:16抓取网页数据违法吗(的文字及图片来源于网络,仅供学习、交流使用)
提示:文章写好后可以自动生成目录,如何生成可以参考右边的帮助文档
内容
前言
新手在路上,如有不对之处,请在评论区指正。
本文文字和图片来源于网络,仅供学习交流使用,不得用于任何商业用途。版权归原作者所有。
一、实施步骤
(1)数据爬取:以requests请求为依据获取数据源。(没安装的兄弟自己安装)
(2) UA 伪装:模拟浏览器访问 URL。
(3) 数据解析:使用xpath语法处理数据。
(4) 数据存储:获取所需数据后使用MongoDB进行存储。
二、目标网站
https://haikou.baixing.com/chongwujiaoyi/
先分析目标网站
点击链接后可以看到我们需要抓取的数据
Ctrl+U打开网页源代码后,可以发现我们要的数据直接在网页上,接下来就开始吧!
三、获取数据1.导入库
import requests #请求网页
from lxml import html # 导入xpath
import pymongo # 用于连接mongoDB数据库
由于版本原因,无法直接从lxml包中导入etree模块,需要多一步。
etree = html.etree
2.请求数据
url = 'https://haikou.baixing.com/chongwujiaoyi/'
respsone = requests.get(url,headers=headers).content.decode('utf-8')
# print(respsone)
2.1 获取一级链接
先得到每只宠物的链接,然后就可以得到宠物的信息,f12打开开发者工具,然后检查元素,看到每只宠物的链接都有