网页中转服务器的ip段ip限制是怎么回事？

优采云发布时间: 2021-06-07 04:02

　　采集系统本身就有相应的硬件，所以网站本身要不要加这样的硬件并不是关键。至于抓取的类型是爬虫还是scrapy，那就要看网站设计时提供的接口来判断。你要抓取豆瓣电影，那网站到底要不要接收这个请求才是关键的地方。

　　不需要，浏览器本身就有一些server了，不需要依赖于一个独立的开发者服务器，直接用浏览器的webserver。这么设计应该是从性能上考虑的。

　　scrapy以及其他基于scrapy的scrapy爬虫框架与这个不一样，很多人觉得应该有ip屏蔽，这个就扯淡了，你也可以设置代理啊，只不过显示的代理是个框架提供的，跟你自己决定没有本质区别。只是你自己也设置代理就行了。回答这个问题，真正需要的是一个能抓取网页内容的中转服务器，普通的做法是有一个独立的ip段，由这个ip段ip来支持登录和页面的查询，就是你可以设置代理，但是能不能有资格抓取，这个就是需要你决定的事情。

　　相当于爬虫扩展

　　没有scrapy的基础，你可以认为浏览器就是ip加路由来抓取页面。即我不需要去想，为什么要出ip限制？那么你可以理解，有些程序要单独请求请求页面，这个路由地址就要有显示，而java框架是支持配置的，ip不是问题。

　　不用scrapy框架的情况下，可以自己设定要不要ip，要不要本地。上网在线登录的情况下有ip，单线程单线程情况下可以调用本地网关。查询ip是进入了完整的http请求，包括图片地址和链接地址。具体的请求头的字段判断以及过滤ip配置还要到相应的语言去配置。如tag和xpath等。

0

2021-06-07

采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页中转服务器的ip段ip限制是怎么回事？

0 个评论

发起人

AI时代内容工厂

网页中转服务器的ip段ip限制是怎么回事？

0 个评论

发起人

相关问题