实用文章:【php 带cookie采集某页面】的更多相关文章
优采云 发布时间: 2022-10-11 21:20实用文章:【php 带cookie采集某页面】的更多相关文章
如果在基于 vue 的 webpack 基架开发中使用代理转发,结果浏览器在没有 cookie 的情况下发出请求,导致登录始终使会话失败,该怎么办?
环境:有2个业务接口需要转发到82台服务器:/用户/getCode.do.do./user/doLogin.do现象:使用以上两个接口实现用户登录功能,首先显示登录页面,调用:/user/getCode.do获取验证码,然后在用户界面中输入用户名。点击登录后调用密码和验证码: /用户/do登录接口实现登录.结果: /用户/do登录后台始终找不到验证码,因为浏览器没有将 JSE 放入 cookie 中...
教程:python爬虫之 requests实战之网页采集器
今天继续我们的爬虫学习,采集器学习一个请求实用的网页:以搜狗主页为例
代码的设计步骤:
我们遵循以下设计过程来开发Web采集器:
(1) UA伪装:将相应的用户代理封装到字典中
在这里,添加了一些知识:
UA:用户代理(请求运营商的身份)
)。
UA检测:服务器网站门户检测到相应请求载体的身份,如果是浏览器,则为正常请求,否则很可能拒绝请求
UA伪装:使爬虫的请求向量身份伪装成某个浏览器
(2) 发起请求,get 模式返回响应对象
(3)获取响应数据,文本以字符串的形式返回响应数据
(4) 数据的持久存储
下面,附加“我的代码”部分:
import requests
'''
网页采集器
UA:User-Agent(请求载体的身份标识)
UA检测:门户网站的服务器会检测对应请求载体的身份标识,如果是浏览器则说明是一个正常请求,否则很有可能拒绝该请求
UA伪装:让爬虫对应的请求载体身份标识伪装成某一个浏览器
'''
if __name__ == "__main__":
#UA伪装:将对应的User-Agent封装到一个字典内
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36'
}
url = 'https://www.sogou.com/web'
# 2.发起请求,get方式会返回一个响应对象
#处理url携带的参数:封装到字典内
kw = input('enter a word:')
param = {
'query':kw
}
#对指定的url发起的请求对应的url是携带参数的,并且请求过程中处理了参数
response = requests.get(url=url,params=param,headers=headers)
# 3.获取响应数据,text返回的是字符串形式的响应数据
page_text = response.text
fileName = kw+'.html'
# 4.持久化存储
<p>
with open(fileName, 'w', encoding='utf-8') as fp:
fp.write(page_text)
print(fileName,"保存成功!!!")</p>
运行python代码,我输入“华庄品”,然后生成华庄品.html文件
华庄品文件.html详细代码为:
化妆品生产许可信息管理系统服务平台
var G = {"baseUrl":"http://scxk.nmpa.gov.cn:81/xk/"};
许可证编号
企业名称
社会信用代码
所属省份
生产类别
<p>
发证日期
企业名称
许可证编号
发证机关 有效期至
本站由国家药品监督管理局主办
版权所有 未经许可禁止转载或建立镜像 Copyright © NMPA All Rights Reserved
</p>