网站调用新浪微博内容(网站调用新浪微博内容时,它会被搜索引擎索引)

优采云 发布时间: 2022-04-04 06:04

  网站调用新浪微博内容(网站调用新浪微博内容时,它会被搜索引擎索引)

  网站调用新浪微博内容时,它会从新浪微博服务器采集每个useragent的调用参数,所以它会需要耗费1秒的时间来请求,这个时间称为爬虫的异步时间。另外它还需要一个发送时间,也就是1秒内发送调用请求的响应时间。

  这个时间一定是固定的,没有提示。

  这和google算法关系很大的

  相信绝大多数人都遇到过这种情况,微博启动的时候一定会启动后台爬虫,爬取useragent,然后返回数据服务器做归档。微博里需要实时更新的信息,如时间,位置,图片等也会通过后台链接获取当前的页面,再通过header下发给server进行抓取。server后台会把抓取到的useragent参数送到归档服务器,经过几秒时间,其中网页抓取到的内容就被归档到服务器了。如果微博处于热门话题,你看到的内容也更容易被搜索引擎索引。

  1、数据库2、server层主要是这两个

  不会

  其实我也一直觉得奇怪。如果新浪微博内容抓取时也能靠google的api完成那就好了。如果是新浪自己做的api完成后端爬虫和传输那也完全可以把。关键还是用户需求变化。比如我以前看到新浪在amazon那个抓取下单,新浪并没有把那个链接、国内新闻useragent抓取,而是把后端抓取的数据和国外那个合并到一起了。

  比如useragent是一个网页地址在新浪这个地址表单或其他的形式的形式。这就给用户带来更大的意义。比如正常从微博搜索结果页找,搜索结果页并不会增加以前的抓取一个记录。而新浪抓取不到那个也带不来任何意义了。不过我现在觉得这个主要就是google把自己的服务赚到了而已。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线