如何把微博模拟登陆和解析难度要高很多呢?

优采云 发布时间: 2021-05-14 21:15

  如何把微博模拟登陆和解析难度要高很多呢?

  从单独学习的角度来看,无论是微博模拟登录还是对微博数据进行爬取分析,难度都比普通爬虫高得多。模拟登录的难度主题已经掌握。如果您已经成功登录并抓住微博来分析返回的数据,则会遇到很多问题。最明显的问题是,您在浏览器中看到的数据是在网页的源代码上搜索的,但找不到,因为它的真实数据已通过

  FM.view \((。*)\)

  此正则表达式已结束。

  模拟登录,这对于某些学生来说应该是困难的。实际上,更复杂的是如何使数据更全面。例如,微博的用户包括很多类别,例如域为100505的普通用户,域为100305的作家和域为100206的企业帐户。我认为许多爬虫将其粗略地处理为100505。例如,当您在微博上查看更多评论时,有时您可以通过下拉列表获得更多评论数据,有时您可以单击“查看更多”。为了获得更多评论,这还需要仔细研究以使数据完整。用户首页上所有微博的爬网会有一些陷阱,需要做很多测试。当然,我要说的都是PC端的东西,而移动终端的登录和解析难度要小得多。当然,它的缺点更加明显,即信息不完整。

  因此,以下是关键点:我开源了一个分布式微博爬虫,目前有几个用户,反馈很好。无论您是学习爬虫还是需要微博数据,我都认为它可以为您提供帮助。该项目没有使用scrapy-redis,而是使用芹菜作为任务调度。而且我已经看到几乎所有分布式爬虫都在Internet上共享,并且从未使用过芹菜!由于他们的爬虫任务可能相对简单,因此该项目的爬虫任务更加复杂,几乎涵盖了您可以想到的所有数据以及微博的爬网,因此从任务优先级和耗时的角度来看,任务路由是几乎是必要的。这也是我选择芹菜进行分布式任务调度的一个非常重要的因素。

  以下是项目地址:ResolveWang / WeiboSpider

  欢迎大人物开*敏*感*词*,小白问这个项目的一些问题

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线