python抓取动态网页(统计市里建筑企业的基本信息,人工数个数,真是很伤眼睛啊)
优采云 发布时间: 2021-09-18 22:10python抓取动态网页(统计市里建筑企业的基本信息,人工数个数,真是很伤眼睛啊)
最近,我们要统计全市建筑企业的基本情况。数一数工人的人数真伤了我们的眼睛。此外,劳动力数量太少
虽然脚本不熟悉该框架,但对于最傻瓜式请求,它仍然是缓慢完成的。虽然速度慢,但它自由灵活
以山东建设特种作业查询网为例
URL::81/sztzy/Login/SelectCert.aspx
目标:通过输入企业名称完成查询并清理数据
在chrome中打开页面,然后打开开发者页面。共有6个页面文件
不需要读取后缀为GIF的两个文件。selectcert.aspx页面收录查询页面的基本信息。我唯一不明白的是这两个web资源的文件是什么,不管以后如何处理
表头基本信息:
Get用于请求,返回的状态代码为200
其他标题信息:
此时选择查询企业
询问
信息表显示在页面上,但页面的URL不会更改
但是,应该注意,在开发人员模式下还有一个网页文件
打开网页中的基本信息,标题信息:
还有一个新的查询字符串参数
还有新的表单数据信息
再次打开页面并预览它
这是HTML格式的Unicode编码。现在您知道了数据的位置,下一步是了解数据传输机制
首先,打开初始页面并阅读内容。大部分内容包括设置页面颜色、按钮控件等基本内容,以及网页和服务器的基本信息
第一个是视图状态信息
同时,继续分析页面代码:
按查询类型查找下拉菜单控件的信息
即ddselect=“2”查询企业时
其他信息,如页码信息,仍需分析。信息太多,无法重复
#下面是对post URL问题的分析,因为post使用的URL会随着页面按钮的操作而动态变化,但变化的规律是什么?我们需要对上述webresource页面进行分析,通过分析其内部代码和网页测试,找到web URL生成的规律
最后,根据get和cookie信息返回的viewstate等信息,将页面请求信息以post的形式发送到指定的URL,返回的数据可以通过beautiful soup解析,通过编码翻译和正则表达式提取有效信息,读取以下页码呃,最后根据查询和使用的条件生成框架数据
上一篇:Python线程多线程崩溃
下一步:SMOSZIP(DBL)数据读取方法说明(二))@