网站内容抓取的常见的问题及解决办法(一)
优采云 发布时间: 2021-04-20 04:01网站内容抓取的常见的问题及解决办法(一)
网站内容抓取这个问题实际上包含了很多个问题:站点、抓取的网站、网站模板等。常见的抓取问题有:1.点击触发的抓取页面;2.点击后马上开始抓取的页面;3.由浏览器主动推送给访问者的页面;4.网站为了访问量,放置很多不是必须抓取的页面;5.内容抓取类型一直在变化。
其实百度每天有很多页面有部分网站是没有抓取到的,从而显示了部分内容。那么页面有多少抓取的?就不能单纯的根据cookie来算了。那么有没有什么通用的办法可以完全抓取每个网站呢?答案就是根据所有页面爬虫的存量和蜘蛛的质量来计算。
这里涉及到ip池,和搜索规则的问题。要有一个标准的ip池:保留三个月(一般超过一年会自动被清空)。还有一个搜索规则:搜索页面最少五个。
一个人在一个页面上抓取1000次都抓取不了1小时就没了
看你一天抓取多少次
抓取以及是否抓取最基本的,
豆瓣
自己解决。一个服务器,一个中转服务器,一个转发服务器,一个ip池。
两种方式抓取,如果是伪代码的抓取的话,一个是服务器承载量的承载量,一个是爬虫的速度,前者是一个很容易调用的方法,后者基本上都要根据你爬虫抓取的某个页面,来做策略的指定。比如,我们做客,爬虫通常设置一个userusernameadminclass="user-agent"size=1500(头,网址)爬行时间1500scale=1,1.0,0(值越大速度越快,可以适当调节)页面点击率15%(自定义标签页面每秒点击率不能超过20%)基本上就能抓取大部分的内容,我看过一些豆瓣,社区网站,有些伪代码抓取达到1万的速度。