文章采集站(文章采集站点:网站结构和元素根据采集策略不同)
优采云 发布时间: 2021-12-30 17:03文章采集站点:网站结构和元素根据采集策略不同,有20多种采集方式,大概是这样:国内的原创频道:天空,环球,mobike,摩拜,赶集,勤劳的采集员,天天世界,高手采集,欢乐农场,友点ur,采食声,o09anotherworld,哈哈网,电子商务中国,浙江网,超市,下厨房,租客巴士,未来商城,zeal,常青树,本地生活网,goldblue,麦兜租车app生活类:万能百货,3w手机助手,海象国际,本地知名电视,足迹无忧,思来,小蚁商城,电商齐家,一号店balabala..主页:通过extension接口来实现。
频道关键词和文本内容:作者文章,网站的“最近新闻”和“热点文章”,报道和新闻客户端的文章等不是太多,内容来源有一些全面的小站,还有大站,qq群,论坛等。访问量数据:主页/频道/文章/阅读量。每天会有2到3篇新的更新,加起来差不多500多篇。留言数据:留言数据每天新增的也会有几十篇,数据不是很稳定。内容来源:大站和小站,本地生活网,微信号等,会有新的内容增加。
原创收录效果:我有几十个小站,全部采集效果大概有200-300篇左右。百分之20-30,原创收录率就是这样,但是收录不稳定,一个月可能有几篇,但是要看抓取的程度。这就是为什么小站很容易收录的原因,谁都想马上赚个盆满钵满,但是内容质量更高,抓取频率更快的,收录效果会更好。质量低的站,内容少的站,一抓就没,收录也不理想。
防爬虫策略:在这里给大家安利一个工具,当进行*敏*感*词*抓取的时候,会有一个同步策略,这种策略大大提高了小站的爬虫效率,而且即使抓到了,一般不会有太大的惩罚,但是如果单个小站被抓到,会引起关站。防爬虫策略一般是采集策略,防抄袭策略,针对一些规模比较大的站点。爬虫方式:对于电商类,天猫店铺的爬虫来说,防止更新ip的就可以了,可以是cdn,这方面的工具相当多,防止抓取,可以通过代理ip,不规则ip来抓取。
对于一些百度统计做不到的数据收集来说,可以进行代理ip,进行跨代理ip抓取。比如“amyagel”,搜索端口给的ip,pc端抓取同理。蜘蛛:优化搜索引擎爬虫内容以及防止更新,对蜘蛛的抓取做优化,可以用通用代理,进行主机。不要让蜘蛛爬关键词的站点,防止意外抓取引起封站。收录:基于站点内容安全,基于爬虫方式进行收录后,确保蜘蛛抓取后,可以修改抓取脚本。
avg爬虫:开始可以采用avg代理端口,然后extension端口,采用正则引擎先搜索,是否能收录,再跟google对比。如果一切正常,那么再加extension端口。收录会越来越快,平均差不多30天收录。