网站内容更新机制(下用代理来解决网站封的ip限制机制（上） )

优采云发布时间: 2022-03-29 01:13

　　网站内容更新机制(下用代理来解决网站封的ip限制机制（上）

)

　　在大数据如此流行的今天，爬虫是其中不可或缺的一部分。作为爬虫，我们都知道获取数据并不容易，因为无论大小网站都在做很多反爬机制来阻碍我们的步伐，但方法总是比. 今天，我们来分析一下网站用了哪些方法来阻止我们。

　　1、验证码

　　2、ua

　　3、登录验证

　　4、账户关闭

　　5、加密

　　6、ip 限制

　　今天，我们将重点介绍网站的IP限制机制。很多网站会根据IP地址的访问频率进行反爬，短时间禁止IP访问。这时候，我们想采集数据要么使用代理 IP，要么使用假 IP。那么我们如何解决这个ip呢？

　　下面我们分享一个使用代理解决网站 ip阻塞的例子。对于“频繁点击”的情况，我们也可以限制爬虫访问网站的频率，避免被网站封禁。

　　 #! -*- encoding:utf-8 -*- import requests import random # 要访问的目标页面 targetUrl = "http://www.csdn.net" # 要访问的目标HTTPS页面 # targetUrl = "https://www.csdn.net" # 代理服务器(产品官网 www.16yun.cn) proxyHost = "t.16yun.cn" proxyPort = "31111" # 代理隧道验证信息 proxyUser = "16JVFLKJ" proxyPass = "254565" proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % { "host" : proxyHost, "port" : proxyPort, "user" : proxyUser, "pass" : proxyPass, } # 设置 http和https访问都是用HTTP代理 proxies = { "http" : proxyMeta, "https" : proxyMeta, } # 设置IP切换头 tunnel = random.randint(1,10000) headers = {"Proxy-Tunnel": str(tunnel)} resp = requests.get(targetUrl, proxies=proxies, headers=headers) print resp.status_code print resp.text

0

2022-03-29

网站内容更新机制

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容更新机制(下用代理来解决网站封的ip限制机制（上） )

0 个评论

发起人

AI时代内容工厂

网站内容更新机制(下用代理来解决网站封的ip限制机制（上） )

0 个评论

发起人

相关问题