抓取网页数据违法吗(的文字及图片来源于网络,仅供学习、交流使用)

优采云发布时间: 2022-01-10 16:16

　　提示：文章写好后可以自动生成目录，如何生成可以参考右边的帮助文档

　　内容

　　前言

　　新手在路上，如有不对之处，请在评论区指正。

　　本文文字和图片来源于网络，仅供学习交流使用，不得用于任何商业用途。版权归原作者所有。

　　一、实施步骤

　　（1)数据爬取：以requests请求为依据获取数据源。（没安装的兄弟自己安装）

　　（2) UA 伪装：模拟浏览器访问 URL。

　　(3) 数据解析：使用xpath语法处理数据。

　　(4) 数据存储：获取所需数据后使用MongoDB进行存储。

　　二、目标网站

　　https://haikou.baixing.com/chongwujiaoyi/

　　先分析目标网站

　　点击链接后可以看到我们需要抓取的数据

　　Ctrl+U打开网页源代码后，可以发现我们要的数据直接在网页上，接下来就开始吧！

　　三、获取数据1.导入库

　　import requests #请求网页

from lxml import html # 导入xpath

import pymongo # 用于连接mongoDB数据库

　　由于版本原因，无法直接从lxml包中导入etree模块，需要多一步。

　　etree = html.etree

　　2.请求数据

　　url = 'https://haikou.baixing.com/chongwujiaoyi/'

respsone = requests.get(url,headers=headers).content.decode('utf-8')

# print(respsone)

　　2.1 获取一级链接

　　先得到每只宠物的链接，然后就可以得到宠物的信息，f12打开开发者工具，然后检查元素，看到每只宠物的链接都有

0

2022-01-10

抓取网页数据违法吗

0 个评论

要回复文章请先登录或注册