网站调用新浪微博内容(网站调用新浪微博内容的难度，一定比抓取新浪自己那个基于cookie的服务器)

优采云发布时间: 2022-01-15 09:04

　　网站调用新浪微博内容的难度，一定比抓取新浪自己那个基于cookie的服务器的难度要大。网站更新数据的时候是服务器在更新，而服务器的稳定性无疑是核心问题。

　　需要记住一点，把网站上的每个人的真实头像图片链接都采集下来是有技术难度的，一般的抓包手段并不能解决这个问题。建议你可以选择从目标网站上的开放api接口里收集，如果我没猜错，应该是有微博登录或者点赞。

　　微博太简单了，我直接上新浪找到关键字转化率会很高的。不过你要是能搞到cookie，可以让爬虫频繁更新。

　　想在几个微博账号注册时保持账号连续不断数据的话，将qq号码和post时间对齐，看结果时间均不重复，能够一定程度的满足要求，这对在几分钟内爬取用户数据来说是否有必要。所以将微博名称和关键字与cookie的关系做匹配，看是否有同步准确率高的变化规律，答案：有。这应该算个基础要求，但如果你能对账号采集的数据进行统计分析和处理还会更有价值。

　　建议楼主找一个可以用更多方法爬取数据的，比如拿到账号id，通过正则匹配，大量dnssetext等方法采集再在一个数据库中进行存储等。这类需求应该也存在，像大师兄这种众包的创业公司很多，但大师兄的内容爬取数据质量和数量相对较低，已经将其归为扩展性不够的项目，否则不会暂时搁置。

0

2022-01-15

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站调用新浪微博内容(网站调用新浪微博内容的难度，一定比抓取新浪自己那个基于cookie的服务器)

0 个评论

发起人

AI时代内容工厂

网站调用新浪微博内容(网站调用新浪微博内容的难度，一定比抓取新浪自己那个基于cookie的服务器)

0 个评论

发起人

相关问题