excel抓取多页网页数据(先导入需要的工具定义 )

优采云 发布时间: 2022-01-11 10:15

  excel抓取多页网页数据(先导入需要的工具定义

)

  首先导入需要的工具,定义爬虫类,初始化base_url,随机请求头,总页数,记录每一页的小说名和连接地址,excel中存储的行数,后面需要用到.

  

  获取网页的源码,分析是否是首页,因为解析url地址发现首页的url和后面的url不一样。如果是第一页,直接返回self.base_url。页数

  

  设置一个循环,如果不能正常连接,会返回失败信息和原因,重新尝试连接。

  

  解析网页源码,通过引入etree,将得到的网页源码转换成xpath可以解析的格式,并设置编码为utf-8格式

  优先获取总页数,匹配到的是

  

  所以需要通过正则表达式匹配总页数,转换为整数类型

  然后在网页中获取小说名和详情地址的url,保存在一个元组中,然后将元组存入小说列表

  

  定义一个解析细节的类,解析小说的细节

  

  获取网页源代码获取详细地址

  

  根据xpath,解析出小说的详细信息。清理数据并返回解析后的信息

  

  回到上一个类,写写数据入表的函数,实现解析明细类的实例对象,根据小说的明细地址进行解析

  

  写启动函数,建表,写数据,保存表

  

  实现爬虫类的对象,调用start函数,启动爬虫

  

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线