网页qq抓取什么原理(如何通过Scrapy实现表单提交(Secure/Max-Age))
优采云 发布时间: 2022-04-05 01:03网页qq抓取什么原理(如何通过Scrapy实现表单提交(Secure/Max-Age))
Cookie 名称(名称)Cookie 值(值)
Cookie 过期时间(Expires/Max-Age)
Cookie函数路径(Path)
cookie所在的域名(Domain),使用cookie进行安全连接(Secure)
前两个参数是cookie应用的必要条件。另外,还包括cookie的大小(Size,不同的浏览器对cookie的数量和大小有不同的限制)。
二、模拟登录
这次爬取的主要网站是知乎
爬取知乎需要登录,通过之前的python内置库,可以轻松实现表单提交。
现在让我们看看如何使用 Scrapy 实现表单提交。
先看登录时的表单结果,还是和之前的手法一样,故意输入错误的密码,并抓取登录页头和表单(我用的是Chrome自带的开发者工具中的Network功能)
apple-system-font, BlinkMacSystemFont, "Helvetica Neue", "PingFang SC", "Hiragino Sans GB", "Microsoft YaHei UI", "Microsoft YaHei", Arial, sans-serif;字体大小:17px;字母间距:0.544px;文本对齐:对齐; widows: 1;">查看捕获的表单,可以看到有四个部分: