工具采集文章(利用mongo+libpot+xslt格式插件抓取新浪微博热门话题)

优采云 发布时间: 2021-12-10 22:08

  工具采集文章(利用mongo+libpot+xslt格式插件抓取新浪微博热门话题)

  工具采集文章助手,非常专业。论坛网站抓取,学会这个方法,轻松玩转论坛网站。利用mongo+libpot+xslt格式插件来抓取新浪微博热门话题的微博。先上效果图:新浪微博热门话题抓取新浪微博一共抓取了三个大方向的热门话题:新浪娱乐、新浪财经、新浪理财。时间线过程如下:编写代码先看一下最终效果:新浪微博热门话题抓取的原理,大体上和网上很多人推荐的方法是一样的。

  就是利用信息抓取器库中的xslt格式插件来处理格式的数据然后返回给爬虫。其实我的原则就是,用代码来搞定这一切。这样抓取文章和论坛页面更加方便。编写代码之前要想清楚几个问题:怎么从新浪网抓取数据?一般用爬虫或者信息抓取器都会提供相应的代码库,可以用代码库来达到数据抓取的目的。爬虫怎么下载新浪微博原始数据?基本上爬虫会在开发时就自动下载最近一周到一个月的微博链接,下载后通过数据库或者爬虫对数据进行处理然后返回给用户。

  我们要抓取的新浪微博热门话题页面,只包含最近七天到两个月的微博链接。微博链接不可以重复,所以要考虑多个微博之间相互有关联。写爬虫的时候,我的规则如下:如果最后一个微博链接返回了两个不同的结果,就会将同一个微博链接下的所有微博全部下载下来。如果一个微博链接返回三个不同的结果,那么下载不同的这三个。在抓取新浪微博热门话题时,每个微博话题有几十万条,两三千条链接。

  数据抓取器库中也有大量微博链接,这个大量的微博链接是爬虫下载起来有点费劲的。而爬虫是通过某些xslt格式插件来抓取这些xslt格式的微博数据。比如我爬取微博总页面的时候,就要使用xslt格式来抓取微博总页面。每个微博链接有多个连接,比如m部分为微博链接,page部分为微博链接。所以如果抓取两三千条新浪微博的时候,单个微博链接下的所有微博,才是用信息抓取器库下载最合适的。

  当然,如果微博链接本身存在一些文本信息也是可以用代码下载下来的。比如下面这个微博返回了一些微博id。可以看到这个微博只有20条微博,如果用xslt格式下,就只下载了20条微博,很不方便。针对第二个问题,虽然抓取新浪微博热门话题页面,需要下载大量的微博链接,但是利用代码把所有微博页面抓取下来,然后进行一些格式处理也很方便。

  比如我抓取的微博总页面只有3条微博,m+page_id返回了两个微博链接:m和page_id。我们可以手动去微博网站上截取第三页之后的所有微博链接。在爬虫实现这个功能之前,要确保需要提取的信息,都放在一个html文件中,然后通过循环把html文件里的所有内容。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线