网页中flash数据抓取( 向网页提交数据进入我们的构建代码环节(组图))

优采云 发布时间: 2021-09-18 10:21

  网页中flash数据抓取(

向网页提交数据进入我们的构建代码环节(组图))

  Python爬虫程序(二):将数据提交到网页

  回想一下,有时当我们查看网站时,是否会遇到一些网站信息开始显示部分,然后当我们向下拉动鼠标滑轮时,会显示一些信息。这是异步加载。我的上一篇文章文章python所有由爬虫程序*敏*感*词*标题数据爬网的标题都加载到页面上。但是我们应该如何抓取开始时未加载的数据

  接下来,让我们介绍以下概念:将数据提交到web页面并进入代码构建阶段。首先,让我们浏览网站:

  

  现在让我们打开Chrome的review元素,如中所示

  

  在网页的源代码中,我们可以发现每张卡片对应的标题以这种格式存储在代码中

  Titomirov Vodka LLC

  好的,我们找到了规律,然后我们可以根据这个规律建立我们的程序:

  title = re.findall('"card-title">(.*?)',post_html.text,re.S)

  上面的代码不明白它的意思。你可以观看python爬虫Baidu贴吧title数据

  所以我们已经完成了对冠军的寻找,然后我们将进入我们的焦点

  当我们向下滑动到底部时,就会出现这种现象:

  

  这就是如何异步加载数据。我们如何才能异步加载数据

  使用我们的review元素,单击network,如图所示:

  

  现在所有的数据都是空的,此时,我们将鼠标滚轮向下滑动,您将看到大量的数据,如图所示:

  

  单击网络中的名字,我们将看到以下信息:

  

  现在我们来分析一下:

  检查

  Remote Address:50.18.112.181:443

Request URL:https://www.crowdfunder.com/deals&template=false&random_seed=1

Request Method:POST

Status Code:200 OK

  请求方法:post这表示我们已向网页提交数据

  提交地址:

  接下来,我们分析价格上涨数据,调低并发现:

  form Data

entities_only:true

page:1

  以上是提交的信息。根据英文含义,页码是我们的页数。根据上述信息,我们可以构建我们的表格:

  #注意这里的page后面跟的数字需要放到引号里面。

post_data = {

'entities_only':'true',

'page':'1'

}

  提交此表单后,我们可以获取返回信息,在返回信息中应用正则表达式,并提取我们感兴趣的内容

  完整代码如下:

  #-*-coding:utf8-*-

import requests

import re

# url = 'https://www.crowdfunder.com/browse/deals'

url = 'https://www.crowdfunder.com/deals&template=false'

post_data = {

'entities_only':'true',

'page':'1'

}

# 提交并获取返回数据

post_html = requests.post(url,data=post_data)

#对返回数据进行分析

titles = re.findall('"card-title">(.*?)',post_html.text,re.S)

for title in titles:

print title

  当您将“页面”:“1”更改为“页面”:“2”时,您将获得不同的数据

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线