如何把微博模拟登陆和解析难度要高很多呢？

优采云发布时间: 2021-05-14 21:15

　　从单独学习的角度来看，无论是微博模拟登录还是对微博数据进行爬取分析，难度都比普通爬虫高得多。模拟登录的难度主题已经掌握。如果您已经成功登录并抓住微博来分析返回的数据，则会遇到很多问题。最明显的问题是，您在浏览器中看到的数据是在网页的源代码上搜索的，但找不到，因为它的真实数据已通过

　　FM.view \（（。*）\）

　　此正则表达式已结束。

　　模拟登录，这对于某些学生来说应该是困难的。实际上，更复杂的是如何使数据更全面。例如，微博的用户包括很多类别，例如域为100505的普通用户，域为100305的作家和域为100206的企业帐户。我认为许多爬虫将其粗略地处理为100505。例如，当您在微博上查看更多评论时，有时您可以通过下拉列表获得更多评论数据，有时您可以单击“查看更多”。为了获得更多评论，这还需要仔细研究以使数据完整。用户首页上所有微博的爬网会有一些陷阱，需要做很多测试。当然，我要说的都是PC端的东西，而移动终端的登录和解析难度要小得多。当然，它的缺点更加明显，即信息不完整。

　　因此，以下是关键点：我开源了一个分布式微博爬虫，目前有几个用户，反馈很好。无论您是学习爬虫还是需要微博数据，我都认为它可以为您提供帮助。该项目没有使用scrapy-redis，而是使用芹菜作为任务调度。而且我已经看到几乎所有分布式爬虫都在Internet上共享，并且从未使用过芹菜！由于他们的爬虫任务可能相对简单，因此该项目的爬虫任务更加复杂，几乎涵盖了您可以想到的所有数据以及微博的爬网，因此从任务优先级和耗时的角度来看，任务路由是几乎是必要的。这也是我选择芹菜进行分布式任务调度的一个非常重要的因素。

　　以下是项目地址：ResolveWang / WeiboSpider

　　欢迎大人物开*敏*感*词*，小白问这个项目的一些问题

0

2021-05-14

网站调用新浪微博内容

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

如何把微博模拟登陆和解析难度要高很多呢？

0 个评论

发起人