解决方案:网站自动采集文章的搜索引擎蜘蛛爬取原理及特点
优采云 发布时间: 2022-12-01 05:26解决方案:网站自动采集文章的搜索引擎蜘蛛爬取原理及特点
" />
网站自动采集文章的搜索引擎蜘蛛爬取原理及特点2006年7月21日网站改版后,互联网各个网站几乎全部换了id,qq邮箱等网站多了一个新的id,百度也换了一个新的id,因此网站也多了一个新的id,那就是zhihu。之前有几个网站pc上面都搜不到这个id的文章,搜手机zhihu不能显示,重点来了,2006年11月-2008年3月期间zhihu一个月抓取1284篇文章,没错!你没看错!1284篇,别人在手机上面发布的!这1284篇文章原始链接,新页面都是保存在本站的!但是受限于flash,xml和pdf格式,往往抓取不到百度蜘蛛喜欢抓取的原始链接,例如原始链接:手机zhihu一个月抓取1284篇文章这时候找到原始链接就比较重要了,经过技术爱好者多年努力终于找到了原始链接,非常高兴,终于解放了!2006年11月那时候网站刚换完id,搜索引擎还没有进入,所以抓取的百度蜘蛛不会保存原始链接,在有的站点我也抓取不到,例如这个手机zhihu文章《三年内,请勿使用安卓手机登录首页》1.zhihu网站原始链接2.原始链接"三年内,请勿使用安卓手机登录首页"当时的我是非常非常沮丧的,最终将百度在网站的抓取链接改成下面的网站抓取链接</a>之前在百度的抓取链接数并不多(2009年初),因此很快将原来抓取的链接给拿到啦,经过一番整理,主要实现了三个功能:1.抓取新页面保存原始链接,变成,一个专门抓取百度搜索引擎抓取到原始链接的网站,同时也可以爬取到其他网站的原始链接,2.生成简单的wordpress网站3.抓取过的文章提取出sitemap,方便后续的站长做推广了另外在网站内部我提出了一个网站自动采集的想法:生成三年内百度搜索引擎爬取到的不同网站所有文章的网站自动抓取网站简单介绍一下我的原想法,就是将每个网站以文章命名,然后爬取网站内的文章,然后制作站点抓取的url来,同时也可以提取出sitemap,这样就非常方便了。
" />
原先,我是采用flash抓取的,但是缺点太多了,速度慢不稳定,经常抓取不到原始链接,费半天功夫才能抓取一篇文章。后来觉得flash抓取速度慢,一个月抓取1284篇还是不现实,而且网站比较大,用flash很麻烦,我觉得我应该更有发言权一些,不过也要经过一番考验!最终确定是采用iframe的方式,只不过速度快,不稳定,而且爬取到的网站不像采用flash抓取那么多。
<p>因此为了速度和提取方便,最终的抓取网站规划如下:手机zhihu抓取网站抓取链接</a>人站网站抓取链接</a>pc站抓取