网站内容抓取的常见的问题及解决办法(一)

优采云 发布时间: 2021-04-20 04:01

  网站内容抓取的常见的问题及解决办法(一)

  网站内容抓取这个问题实际上包含了很多个问题:站点、抓取的网站、网站模板等。常见的抓取问题有:1.点击触发的抓取页面;2.点击后马上开始抓取的页面;3.由浏览器主动推送给访问者的页面;4.网站为了访问量,放置很多不是必须抓取的页面;5.内容抓取类型一直在变化。

  其实百度每天有很多页面有部分网站是没有抓取到的,从而显示了部分内容。那么页面有多少抓取的?就不能单纯的根据cookie来算了。那么有没有什么通用的办法可以完全抓取每个网站呢?答案就是根据所有页面爬虫的存量和蜘蛛的质量来计算。

  这里涉及到ip池,和搜索规则的问题。要有一个标准的ip池:保留三个月(一般超过一年会自动被清空)。还有一个搜索规则:搜索页面最少五个。

  一个人在一个页面上抓取1000次都抓取不了1小时就没了

  看你一天抓取多少次

  抓取以及是否抓取最基本的,

  豆瓣

  自己解决。一个服务器,一个中转服务器,一个转发服务器,一个ip池。

  两种方式抓取,如果是伪代码的抓取的话,一个是服务器承载量的承载量,一个是爬虫的速度,前者是一个很容易调用的方法,后者基本上都要根据你爬虫抓取的某个页面,来做策略的指定。比如,我们做客,爬虫通常设置一个userusernameadminclass="user-agent"size=1500(头,网址)爬行时间1500scale=1,1.0,0(值越大速度越快,可以适当调节)页面点击率15%(自定义标签页面每秒点击率不能超过20%)基本上就能抓取大部分的内容,我看过一些豆瓣,社区网站,有些伪代码抓取达到1万的速度。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线