网页中flash数据抓取( 向网页提交数据进入我们的构建代码环节(组图))
优采云 发布时间: 2021-09-18 10:21网页中flash数据抓取(
向网页提交数据进入我们的构建代码环节(组图))
Python爬虫程序(二):将数据提交到网页
回想一下,有时当我们查看网站时,是否会遇到一些网站信息开始显示部分,然后当我们向下拉动鼠标滑轮时,会显示一些信息。这是异步加载。我的上一篇文章文章python所有由爬虫程序*敏*感*词*标题数据爬网的标题都加载到页面上。但是我们应该如何抓取开始时未加载的数据
接下来,让我们介绍以下概念:将数据提交到web页面并进入代码构建阶段。首先,让我们浏览网站:
现在让我们打开Chrome的review元素,如中所示
在网页的源代码中,我们可以发现每张卡片对应的标题以这种格式存储在代码中
Titomirov Vodka LLC
好的,我们找到了规律,然后我们可以根据这个规律建立我们的程序:
title = re.findall('"card-title">(.*?)',post_html.text,re.S)
上面的代码不明白它的意思。你可以观看python爬虫Baidu贴吧title数据
所以我们已经完成了对冠军的寻找,然后我们将进入我们的焦点
当我们向下滑动到底部时,就会出现这种现象:
这就是如何异步加载数据。我们如何才能异步加载数据
使用我们的review元素,单击network,如图所示:
现在所有的数据都是空的,此时,我们将鼠标滚轮向下滑动,您将看到大量的数据,如图所示:
单击网络中的名字,我们将看到以下信息:
现在我们来分析一下:
检查
Remote Address:50.18.112.181:443
Request URL:https://www.crowdfunder.com/deals&template=false&random_seed=1
Request Method:POST
Status Code:200 OK
请求方法:post这表示我们已向网页提交数据
提交地址:
接下来,我们分析价格上涨数据,调低并发现:
form Data
entities_only:true
page:1
以上是提交的信息。根据英文含义,页码是我们的页数。根据上述信息,我们可以构建我们的表格:
#注意这里的page后面跟的数字需要放到引号里面。
post_data = {
'entities_only':'true',
'page':'1'
}
提交此表单后,我们可以获取返回信息,在返回信息中应用正则表达式,并提取我们感兴趣的内容
完整代码如下:
#-*-coding:utf8-*-
import requests
import re
# url = 'https://www.crowdfunder.com/browse/deals'
url = 'https://www.crowdfunder.com/deals&template=false'
post_data = {
'entities_only':'true',
'page':'1'
}
# 提交并获取返回数据
post_html = requests.post(url,data=post_data)
#对返回数据进行分析
titles = re.findall('"card-title">(.*?)',post_html.text,re.S)
for title in titles:
print title
当您将“页面”:“1”更改为“页面”:“2”时,您将获得不同的数据