excel抓取多页网页数据(先导入需要的工具定义 )

优采云发布时间: 2022-01-11 10:15

　　excel抓取多页网页数据(先导入需要的工具定义

)

　　首先导入需要的工具，定义爬虫类，初始化base_url，随机请求头，总页数，记录每一页的小说名和连接地址，excel中存储的行数，后面需要用到.

　　获取网页的源码，分析是否是首页，因为解析url地址发现首页的url和后面的url不一样。如果是第一页，直接返回self.base_url。页数

　　设置一个循环，如果不能正常连接，会返回失败信息和原因，重新尝试连接。

　　解析网页源码，通过引入etree，将得到的网页源码转换成xpath可以解析的格式，并设置编码为utf-8格式

　　优先获取总页数，匹配到的是

　　所以需要通过正则表达式匹配总页数，转换为整数类型

　　然后在网页中获取小说名和详情地址的url，保存在一个元组中，然后将元组存入小说列表

　　定义一个解析细节的类，解析小说的细节

　　获取网页源代码获取详细地址

　　根据xpath，解析出小说的详细信息。清理数据并返回解析后的信息

　　回到上一个类，写写数据入表的函数，实现解析明细类的实例对象，根据小说的明细地址进行解析

　　写启动函数，建表，写数据，保存表

　　实现爬虫类的对象，调用start函数，启动爬虫

0

2022-01-11

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册