网站调用新浪微博内容(网站调用新浪微博内容时，它会被搜索引擎索引)

优采云发布时间: 2022-04-04 06:04

　　网站调用新浪微博内容时，它会从新浪微博服务器采集每个useragent的调用参数，所以它会需要耗费1秒的时间来请求，这个时间称为爬虫的异步时间。另外它还需要一个发送时间，也就是1秒内发送调用请求的响应时间。

　　这个时间一定是固定的，没有提示。

　　这和google算法关系很大的

　　相信绝大多数人都遇到过这种情况，微博启动的时候一定会启动后台爬虫，爬取useragent,然后返回数据服务器做归档。微博里需要实时更新的信息，如时间，位置，图片等也会通过后台链接获取当前的页面，再通过header下发给server进行抓取。server后台会把抓取到的useragent参数送到归档服务器，经过几秒时间，其中网页抓取到的内容就被归档到服务器了。如果微博处于热门话题，你看到的内容也更容易被搜索引擎索引。

　　1、数据库2、server层主要是这两个

　　不会

　　其实我也一直觉得奇怪。如果新浪微博内容抓取时也能靠google的api完成那就好了。如果是新浪自己做的api完成后端爬虫和传输那也完全可以把。关键还是用户需求变化。比如我以前看到新浪在amazon那个抓取下单，新浪并没有把那个链接、国内新闻useragent抓取，而是把后端抓取的数据和国外那个合并到一起了。

　　比如useragent是一个网页地址在新浪这个地址表单或其他的形式的形式。这就给用户带来更大的意义。比如正常从微博搜索结果页找，搜索结果页并不会增加以前的抓取一个记录。而新浪抓取不到那个也带不来任何意义了。不过我现在觉得这个主要就是google把自己的服务赚到了而已。

0

2022-04-04

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站调用新浪微博内容(网站调用新浪微博内容时，它会被搜索引擎索引)

0 个评论

发起人

AI时代内容工厂

网站调用新浪微博内容(网站调用新浪微博内容时，它会被搜索引擎索引)

0 个评论

发起人

相关问题