如何用firebug和管理有价值内容来降低存储成本?

优采云 发布时间: 2022-08-12 04:01

  如何用firebug和管理有价值内容来降低存储成本?

  文章定时自动采集头条号、知乎、公众号等平台上的内容(对知乎和公众号采集有需求的,详情请看公众号图文设置、人工智能消息,批量采集内容)发布到百度(/baiduspider),

  我是前年用5fz抓得。“采集技术”公众号专门写这些。百度知道问答平台抓取以及其他平台个人博客访问量抓取,保证平台质量。

  

  我爬的百度知道,信息量还是有的,那你是准备做平台还是专门抓呢,你写爬虫本来也是测试用的,基本性质就决定你抓的问题要根据你的初衷写,你是测试公司还是服务器,不一样的。

  头条、网易都是有固定的收录机制的,1月30号开始,抓取后百度立刻重新收录。抓取的网站有要求,会定期删掉一些不需要或难被收录的页面,你的问题也符合,百度知道还是发给百度,但是在你看不到了一段时间后,百度知道又会被删掉。网站抓取收录后,做下内容对比,一些是可以继续抓的,一些是不适合继续抓的,还有些是你需要自己创建页面抓的。

  

  每个收录期间,用户访问百度知道的数量肯定是有限制的,抓取数量也会受限制。所以每次提交都需要做内容对比,和收录人数做对比,筛选一些可以继续收录的,做下扩容,做上限的扩容。

  百度知道是有固定收录机制的,这个是无法避免的。怎么样做好百度知道收录,如何用firebug抓取和管理有价值内容来降低存储成本?基本上你抓取出来后,如果收录了之后,就要做优化,提高访问效率,是不是有价值的提问就要继续抓取。一般情况是不收录就抓取下面几个方面的资料:1.类似情感纠缠或者抬杠很激烈的,这种可以做,让网站更注重互动、回答。

  2.有明显标签定义和引导意义的,比如某个身高等等的标签。百度知道需要量入为出,不收录就不抓取,一般要隔几个月检查,收录以后继续抓取,要让收录成为持续的活动。建议你去学学花生壳firefox抓取插件,自己改下参数,达到一定计费线,然后搞定抓取。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线