实用文章:【php 带cookie采集某页面】的更多相关文章

优采云 发布时间: 2022-10-11 21:20

  实用文章:【php 带cookie采集某页面】的更多相关文章

  

  如果在基于 vue 的 webpack 基架开发中使用代理转发,结果浏览器在没有 cookie 的情况下发出请求,导致登录始终使会话失败,该怎么办?

  

  环境:有2个业务接口需要转发到82台服务器:/用户/getCode.do.do./user/doLogin.do现象:使用以上两个接口实现用户登录功能,首先显示登录页面,调用:/user/getCode.do获取验证码,然后在用户界面中输入用户名。点击登录后调用密码和验证码: /用户/do登录接口实现登录.结果: /用户/do登录后台始终找不到验证码,因为浏览器没有将 JSE 放入 cookie 中...

  教程:python爬虫之 requests实战之网页采集

  今天继续我们的爬虫学习,采集器学习一个请求实用的网页:以搜狗主页为例

  代码的设计步骤:

  我们遵循以下设计过程来开发Web采集器:

  (1) UA伪装:将相应的用户代理封装到字典中

  在这里,添加了一些知识:

  UA:用户代理(请求运营商的身份)

  )。

  UA检测:服务器网站门户检测到相应请求载体的身份,如果是浏览器,则为正常请求,否则很可能拒绝请求

  UA伪装:使爬虫的请求向量身份伪装成某个浏览器

  (2) 发起请求,get 模式返回响应对象

  (3)获取响应数据,文本以字符串的形式返回响应数据

  (4) 数据的持久存储

  下面,附加“我的代码”部分:

  import requests

'''

网页采集器

UA:User-Agent(请求载体的身份标识)

UA检测:门户网站的服务器会检测对应请求载体的身份标识,如果是浏览器则说明是一个正常请求,否则很有可能拒绝该请求

UA伪装:让爬虫对应的请求载体身份标识伪装成某一个浏览器

'''

if __name__ == "__main__":

#UA伪装:将对应的User-Agent封装到一个字典内

headers = {

'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'

}

url = 'https://www.sogou.com/web'

# 2.发起请求,get方式会返回一个响应对象

#处理url携带的参数:封装到字典内

kw = input('enter a word:')

param = {

'query':kw

}

#对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数

response = requests.get(url=url,params=param,headers=headers)

# 3.获取响应数据,text返回的是字符串形式的响应数据

page_text = response.text

fileName = kw+'.html'

# 4.持久化存储

<p>

with open(fileName, &#39;w&#39;, encoding=&#39;utf-8&#39;) as fp:

fp.write(page_text)

print(fileName,"保存成功!!!")</p>

  运行python代码,我输入“华庄品”,然后生成华庄品.html文件

  华庄品文件.html详细代码为:

  

化妆品生产许可信息管理系统服务平台

var G = {"baseUrl":"http://scxk.nmpa.gov.cn:81/xk/"};

【全部许可证】【业务办理】

许可证编号

企业名称

社会信用代码

所属省份

生产类别

<p>

发证日期

企业名称

许可证编号

  发证机关 有效期至

本站由国家药品监督管理局主办

版权所有 未经许可禁止转载或建立镜像 Copyright &copy; NMPA All Rights Reserved

</p>

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线