网页表格抓取(怎么处理这类网页的网页？表格中的两个)

优采云发布时间: 2022-01-04 07:09

　　想爬取一个网站1-n页面的内容，url构造为”，其中？它指的是第n页。假设是58095，url是“（需要登录才能看到详细信息，可以填写我的账号，密码123b45），那么如果我爬下公司名称和公司注册号，等可以用panyname,panyid等存储，这些比较简单，问题是后面的融资信息，如果我用item.invest来存储，那么这个变量其实就是一张没有详细展开的表，需要后面处理，所以如果我Expand的话，需要的变量太多了，而且每个公司融资的数量不同，也就是说对于不同的页面，html标签tr的数量是不确定的，包括以下业务更改记录也是这样，那么我的问题是：

　　1. 这种行数不定的表信息怎么保存，因为之前用了item.name等item变量，相当于建表了，那怎么保存融资在这张桌子上？不确定嵌入的表信息的行数？后端的数据库是不是一般都存放在类似于json格式的字典中？

　　2. 如果以保存业务变更记录的形式添加信息，如上，是不是相当于在一个表单中嵌套了两个表单？感觉好复杂啊想着把融资信息和业务变更记录信息分别创建一个itemi()和itemc()，爬上去后再合并。

　　由于网页的复杂性，不知道大神们平时是怎么处理这样的网页的？

0

2022-01-04

网页表格抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页表格抓取(怎么处理这类网页的网页？表格中的两个)

0 个评论

发起人