抓取网页数据违法吗(有几种方法可以检查被阻止的爬网程序:要么)

优采云发布时间: 2022-01-18 23:03

　　当我们第一次接触python爬虫时，总是遇到采集data时爬虫被阻塞的问题。我想每个人都有类似的问题。今天我们将从http代理ip的角度来讨论如何解决这个问题。使用代理 IP 服务器抓取网页时，我的 IP 是否仍会被阻止？

　　一般来说，有几种方法可以检查被阻止的爬虫：

　　首先，检查 JavaScript。如果您从 Web 服务器收到的页面是空白的、缺少信息，或者遇到了您不期望的（或您在浏览器中看到的），可能是因为网站创建的页面有问题使用 JavaScript 执行。

　　二、看普通浏览器提交的参数。如果您打算向网站提交表单或 POST 请求，请记得检查页面内容以查看您提交的每个字段是否填写正确且格式正确。使用 Chrome 的 web 面板（快捷键 F12 打开开发者控制台，然后单击“网络”查看）查看发送到网站的 POST 命令，并确保您的每个参数都正确。

　　第三，是否有合法的cookies？如果您已经登录到网站但无法保持登录状态，或者如果您在网站上有其他“登录状态”异常，请检查您的 cookie。确保在每次页面加载时正确调用 cookie，并且每次发出请求时将 cookie 发送到网站。

　　四、IP被封了吗？如果您在客户端收到 HTTP 错误，尤其是 403 Forbidden 错误，这可能表明网站已将您的 IP 视为机器人并且不再接受您的任何请求。等待您的 IP 地址从网站黑名单中删除，或更改 IP 地址。如果您确定自己没有被禁止，请查看以下内容。

　　第五，确保你的爬虫在网站上不会太快。快速采集是一个坏习惯，它会给网络管理员的服务器带来沉重的负担，让你陷入违法的境地。这也是IP被网站列入黑名单的主要原因。为您的爬虫增加延迟，让它们在深夜运行。请记住：匆忙编写程序或采集数据是项目管理不善的标志；我们应该提前计划以避免恐慌。

　　第六，还必须做一件事：修改你的请求头！一些网站会阻止任何自称爬行动物的访客。如果您不确定请求标头的值是否合适，请使用您浏览器的请求标头。

0

2022-01-18

抓取网页数据违法吗

0 个评论

要回复文章请先登录或注册