网站内容更新机制(下用代理来解决网站封的ip限制机制(上) )

优采云 发布时间: 2022-03-29 01:13

  网站内容更新机制(下用代理来解决网站封的ip限制机制(上)

)

  在大数据如此流行的今天,爬虫是其中不可或缺的一部分。作为爬虫,我们都知道获取数据并不容易,因为无论大小网站都在做很多反爬机制来阻碍我们的步伐,但方法总是比. 今天,我们来分析一下网站用了哪些方法来阻止我们。

  1、验证码

  2、ua

  3、登录验证

  4、账户关闭

  5、加密

  6、ip 限制

  今天,我们将重点介绍网站的IP限制机制。很多网站会根据IP地址的访问频率进行反爬,短时间禁止IP访问。这时候,我们想 采集 数据要么使用代理 IP,要么使用假 IP。那么我们如何解决这个ip呢?

  下面我们分享一个使用代理解决网站 ip阻塞的例子。对于“频繁点击”的情况,我们也可以限制爬虫访问网站的频率,避免被网站封禁。

          #! -*- encoding:utf-8 -*-        import requests        import random        # 要访问的目标页面        targetUrl = "http://www.csdn.net"        # 要访问的目标HTTPS页面        # targetUrl = "https://www.csdn.net"        # 代理服务器(产品官网 www.16yun.cn)        proxyHost = "t.16yun.cn"        proxyPort = "31111"        # 代理隧道验证信息        proxyUser = "16JVFLKJ"        proxyPass = "254565"        proxyMeta = "http://%(user)s:%(pass)s@%(host)s:%(port)s" % {            "host" : proxyHost,            "port" : proxyPort,            "user" : proxyUser,            "pass" : proxyPass,        }        # 设置 http和https访问都是用HTTP代理        proxies = {            "http"  : proxyMeta,            "https" : proxyMeta,        }        #  设置IP切换头        tunnel = random.randint(1,10000)        headers = {"Proxy-Tunnel": str(tunnel)}        resp = requests.get(targetUrl, proxies=proxies, headers=headers)        print resp.status_code        print resp.text

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线