网页中flash数据抓取( 向网页提交数据进入我们的构建代码环节(组图))

优采云发布时间: 2021-09-18 10:21

　　网页中flash数据抓取(

向网页提交数据进入我们的构建代码环节(组图))

　　Python爬虫程序（二）:将数据提交到网页

　　回想一下，有时当我们查看网站时，是否会遇到一些网站信息开始显示部分，然后当我们向下拉动鼠标滑轮时，会显示一些信息。这是异步加载。我的上一篇文章文章python所有由爬虫程序*敏*感*词*标题数据爬网的标题都加载到页面上。但是我们应该如何抓取开始时未加载的数据

　　接下来，让我们介绍以下概念：将数据提交到web页面并进入代码构建阶段。首先，让我们浏览网站：

　　现在让我们打开Chrome的review元素，如中所示

　　在网页的源代码中，我们可以发现每张卡片对应的标题以这种格式存储在代码中

　　Titomirov Vodka LLC

　　好的，我们找到了规律，然后我们可以根据这个规律建立我们的程序：

　　title ＝ re.findall('"card-title">(.*?)',post_html.text,re.S)

　　上面的代码不明白它的意思。你可以观看python爬虫Baidu贴吧title数据

　　所以我们已经完成了对冠军的寻找，然后我们将进入我们的焦点

　　当我们向下滑动到底部时，就会出现这种现象：

　　这就是如何异步加载数据。我们如何才能异步加载数据

　　使用我们的review元素，单击network，如图所示：

　　现在所有的数据都是空的，此时，我们将鼠标滚轮向下滑动，您将看到大量的数据，如图所示：

　　单击网络中的名字，我们将看到以下信息：

　　现在我们来分析一下：

　　检查

　　Remote Address:50.18.112.181:443

Request URL:https://www.crowdfunder.com/deals&template=false&random_seed=1

Request Method:POST

Status Code:200 OK

　　请求方法：post这表示我们已向网页提交数据

　　提交地址：

　　接下来，我们分析价格上涨数据，调低并发现：

　　form Data

entities_only:true

page:1

　　以上是提交的信息。根据英文含义，页码是我们的页数。根据上述信息，我们可以构建我们的表格：

　　#注意这里的page后面跟的数字需要放到引号里面。

post_data = {

'entities_only':'true',

'page':'1'

}

　　提交此表单后，我们可以获取返回信息，在返回信息中应用正则表达式，并提取我们感兴趣的内容

　　完整代码如下：

　　#-*-coding:utf8-*-

import requests

import re

# url = 'https://www.crowdfunder.com/browse/deals'

url = 'https://www.crowdfunder.com/deals&template=false'

post_data = {

'entities_only':'true',

'page':'1'

}

# 提交并获取返回数据

post_html = requests.post(url,data=post_data)

#对返回数据进行分析

titles = re.findall('"card-title">(.*?)',post_html.text,re.S)

for title in titles:

print title

　　当您将“页面”：“1”更改为“页面”：“2”时，您将获得不同的数据

0

2021-09-18

网页中flash数据抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页中flash数据抓取( 向网页提交数据进入我们的构建代码环节(组图))

0 个评论

发起人

AI时代内容工厂

网页中flash数据抓取( 向网页提交数据进入我们的构建代码环节(组图))

0 个评论

发起人

相关问题