python抓取动态网页(统计市里建筑企业的基本信息,人工数个数,真是很伤眼睛啊)

优采云 发布时间: 2021-09-18 22:10

  python抓取动态网页(统计市里建筑企业的基本信息,人工数个数,真是很伤眼睛啊)

  最近,我们要统计全市建筑企业的基本情况。数一数工人的人数真伤了我们的眼睛。此外,劳动力数量太少

  虽然脚本不熟悉该框架,但对于最傻瓜式请求,它仍然是缓慢完成的。虽然速度慢,但它自由灵活

  以山东建设特种作业查询网为例

  URL::81/sztzy/Login/SelectCert.aspx

  目标:通过输入企业名称完成查询并清理数据

  在chrome中打开页面,然后打开开发者页面。共有6个页面文件

  

  不需要读取后缀为GIF的两个文件。selectcert.aspx页面收录查询页面的基本信息。我唯一不明白的是这两个web资源的文件是什么,不管以后如何处理

  表头基本信息:

  

  Get用于请求,返回的状态代码为200

  其他标题信息:

  

  此时选择查询企业

  

  询问

  

  信息表显示在页面上,但页面的URL不会更改

  但是,应该注意,在开发人员模式下还有一个网页文件

  

  打开网页中的基本信息,标题信息:

  

  

  还有一个新的查询字符串参数

  

  还有新的表单数据信息

  

  再次打开页面并预览它

  

  这是HTML格式的Unicode编码。现在您知道了数据的位置,下一步是了解数据传输机制

  首先,打开初始页面并阅读内容。大部分内容包括设置页面颜色、按钮控件等基本内容,以及网页和服务器的基本信息

  第一个是视图状态信息

  

  同时,继续分析页面代码:

  按查询类型查找下拉菜单控件的信息

  

  即ddselect=“2”查询企业时

  其他信息,如页码信息,仍需分析。信息太多,无法重复

  #下面是对post URL问题的分析,因为post使用的URL会随着页面按钮的操作而动态变化,但变化的规律是什么?我们需要对上述webresource页面进行分析,通过分析其内部代码和网页测试,找到web URL生成的规律

  最后,根据get和cookie信息返回的viewstate等信息,将页面请求信息以post的形式发送到指定的URL,返回的数据可以通过beautiful soup解析,通过编码翻译和正则表达式提取有效信息,读取以下页码呃,最后根据查询和使用的条件生成框架数据

  上一篇:Python线程多线程崩溃

  下一步:SMOSZIP(DBL)数据读取方法说明(二))@

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线