python抓取动态网页(统计市里建筑企业的基本信息，人工数个数，真是很伤眼睛啊)

优采云发布时间: 2021-09-18 22:10

　　最近，我们要统计全市建筑企业的基本情况。数一数工人的人数真伤了我们的眼睛。此外，劳动力数量太少

　　虽然脚本不熟悉该框架，但对于最傻瓜式请求，它仍然是缓慢完成的。虽然速度慢，但它自由灵活

　　以山东建设特种作业查询网为例

　　URL:：81/sztzy/Login/SelectCert.aspx

　　目标：通过输入企业名称完成查询并清理数据

　　在chrome中打开页面，然后打开开发者页面。共有6个页面文件

　　不需要读取后缀为GIF的两个文件。selectcert.aspx页面收录查询页面的基本信息。我唯一不明白的是这两个web资源的文件是什么，不管以后如何处理

　　表头基本信息：

　　Get用于请求，返回的状态代码为200

　　其他标题信息：

　　此时选择查询企业

　　询问

　　信息表显示在页面上，但页面的URL不会更改

　　但是，应该注意，在开发人员模式下还有一个网页文件

　　打开网页中的基本信息，标题信息：

　　还有一个新的查询字符串参数

　　还有新的表单数据信息

　　再次打开页面并预览它

　　这是HTML格式的Unicode编码。现在您知道了数据的位置，下一步是了解数据传输机制

　　首先，打开初始页面并阅读内容。大部分内容包括设置页面颜色、按钮控件等基本内容，以及网页和服务器的基本信息

　　第一个是视图状态信息

　　同时，继续分析页面代码：

　　按查询类型查找下拉菜单控件的信息

　　即ddselect=“2”查询企业时

　　其他信息，如页码信息，仍需分析。信息太多，无法重复

　　#下面是对post URL问题的分析，因为post使用的URL会随着页面按钮的操作而动态变化，但变化的规律是什么？我们需要对上述webresource页面进行分析，通过分析其内部代码和网页测试，找到web URL生成的规律

　　最后，根据get和cookie信息返回的viewstate等信息，将页面请求信息以post的形式发送到指定的URL，返回的数据可以通过beautiful soup解析，通过编码翻译和正则表达式提取有效信息，读取以下页码呃，最后根据查询和使用的条件生成框架数据

　　上一篇：Python线程多线程崩溃

　　下一步：SMOSZIP（DBL）数据读取方法说明（二））@

0

2021-09-18

python抓取动态网页

0 个评论

要回复文章请先登录或注册