php抓取网页json数据(爬虫系列总目录本章节介绍(图)系列)

优采云发布时间: 2021-09-18 19:12

　　爬虫系列通用目录

　　本章介绍爬虫程序中用于选择和过滤页面信息的基本库。包括请求、BS4、XPath、正则表达式、re、JSON等内容，可以实现简单页面的获取

　　第2章基本爬虫数据库-请求/BS4

　　第二章正则表达式

　　第二章是简单网页的爬网以及XPath和JSON的使用

　　通用数据类型和数据分析应用程序

　　一、数据分类

　　爬虫的步骤可分为：

　　目标（指定要爬网的内容–&gt；网站等）爬网数据（获取所有内容）获取数据（分析数据并删除我们不需要的数据）存储数据（根据我们自己的需要存储）

　　第三步是获取数据。获取的内容一般分为两部分：结构化数据和非结构化数据

　　结构化数据

　　二、正在分析子网的一段2.1目标设定

　　目标网站:

　　第2页：

　　2.2得到回应

　　代码查看方法

　　def get_response(url, headers=None):

"""获取响应"""

_headers = {

'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/93.0.4577.63 Safari/537.36'

}

if headers:

_headers = headers

res = requests.get(url, headers=_headers)

# 如果当前网站不是utf8的编码需要在括号内指定对应的编码

return res.content.decode()

　　2.3过滤数据

　　发展：可再生能源。

　　如果要匹配的目标数据中有换行符，则存在参数re。在Python的正则表达式中。这意味着“.”的函数扩展到整个字符串，包括“\n”

　　a = '''asdfsafhellopass:

worldafdsf

'''

b = re.findall('hello(.*?)world',a)

c = re.findall('hello(.*?)world',a,re.S)

　　2.4运行并保存数据三.使用XPath解析数据

　　XPath是一种用于在XML文档中查找信息的语言。XPath使用路径表达式选择XML文档中的节点或节点集

　　3.1什么是XML3.1.1XML和HTML之间的区别：3.2选择节点

　　XPath使用路径表达式选择XML文档中的节点，或使用节点名节选择此节点的所有子节点集

　　例如：

　　3.3使用通配符选择未知节点

　　通配符和描述

　　四、JSON

　　JSON（JavaScript对象表示法）是一种轻量级数据交换格式，它使人们易于读写。同时，也方便了机器的分析和生成。适用于数据交互场景，如网站前台和后台数据交互

　　4.1Python处理JSON

　　Python中有一个内置的JSON模块来处理JSON数据。该模块提供四个函数：dumps、dump、load和load，用于在字符串和python数据类型之间进行转换

　　4.2Jsonpath（理解）

　　Jsonpath是一个信息提取类库，是从JSON文档中提取指定信息的工具。JSON的Jsonpath相当于XML的XPath

　　jsonpath和XPath的语法比较：JSON结构清晰，可读性高，复杂度低，很容易匹配。下表对应于XPath的用法

　　五、practice

　　段子网数据采集

0

2021-09-18

php抓取网页json数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

php抓取网页json数据(爬虫系列总目录本章节介绍(图)系列)

0 个评论

发起人