网页表格抓取(怎么处理这类网页的网页?表格中的两个)
优采云 发布时间: 2022-01-04 07:09网页表格抓取(怎么处理这类网页的网页?表格中的两个)
想爬取一个网站1-n页面的内容,url构造为”,其中?它指的是第n页。假设是58095,url是“(需要登录才能看到详细信息,可以填写我的账号,密码123b45),那么如果我爬下公司名称和公司注册号,等可以用panyname,panyid等存储,这些比较简单,问题是后面的融资信息,如果我用item.invest来存储,那么这个变量其实就是一张没有详细展开的表,需要后面处理,所以如果我Expand的话,需要的变量太多了,而且每个公司融资的数量不同,也就是说对于不同的页面,html标签tr的数量是不确定的,包括以下业务更改记录也是这样,那么我的问题是:
1. 这种行数不定的表信息怎么保存,因为之前用了item.name等item变量,相当于建表了,那怎么保存融资在这张桌子上?不确定嵌入的表信息的行数?后端的数据库是不是一般都存放在类似于json格式的字典中?
2. 如果以保存业务变更记录的形式添加信息,如上,是不是相当于在一个表单中嵌套了两个表单?感觉好复杂啊想着把融资信息和业务变更记录信息分别创建一个itemi()和itemc(),爬上去后再合并。
由于网页的复杂性,不知道大神们平时是怎么处理这样的网页的?