工具采集文章(利用mongo+libpot+xslt格式插件抓取新浪微博热门话题)

优采云发布时间: 2021-12-10 22:08

　　工具采集文章助手，非常专业。论坛网站抓取，学会这个方法，轻松玩转论坛网站。利用mongo+libpot+xslt格式插件来抓取新浪微博热门话题的微博。先上效果图：新浪微博热门话题抓取新浪微博一共抓取了三个大方向的热门话题：新浪娱乐、新浪财经、新浪理财。时间线过程如下：编写代码先看一下最终效果：新浪微博热门话题抓取的原理，大体上和网上很多人推荐的方法是一样的。

　　就是利用信息抓取器库中的xslt格式插件来处理格式的数据然后返回给爬虫。其实我的原则就是，用代码来搞定这一切。这样抓取文章和论坛页面更加方便。编写代码之前要想清楚几个问题：怎么从新浪网抓取数据？一般用爬虫或者信息抓取器都会提供相应的代码库，可以用代码库来达到数据抓取的目的。爬虫怎么下载新浪微博原始数据？基本上爬虫会在开发时就自动下载最近一周到一个月的微博链接，下载后通过数据库或者爬虫对数据进行处理然后返回给用户。

　　我们要抓取的新浪微博热门话题页面，只包含最近七天到两个月的微博链接。微博链接不可以重复，所以要考虑多个微博之间相互有关联。写爬虫的时候，我的规则如下：如果最后一个微博链接返回了两个不同的结果，就会将同一个微博链接下的所有微博全部下载下来。如果一个微博链接返回三个不同的结果，那么下载不同的这三个。在抓取新浪微博热门话题时，每个微博话题有几十万条，两三千条链接。

　　数据抓取器库中也有大量微博链接，这个大量的微博链接是爬虫下载起来有点费劲的。而爬虫是通过某些xslt格式插件来抓取这些xslt格式的微博数据。比如我爬取微博总页面的时候，就要使用xslt格式来抓取微博总页面。每个微博链接有多个连接，比如m部分为微博链接，page部分为微博链接。所以如果抓取两三千条新浪微博的时候，单个微博链接下的所有微博，才是用信息抓取器库下载最合适的。

　　当然，如果微博链接本身存在一些文本信息也是可以用代码下载下来的。比如下面这个微博返回了一些微博id。可以看到这个微博只有20条微博，如果用xslt格式下，就只下载了20条微博，很不方便。针对第二个问题，虽然抓取新浪微博热门话题页面，需要下载大量的微博链接，但是利用代码把所有微博页面抓取下来，然后进行一些格式处理也很方便。

　　比如我抓取的微博总页面只有3条微博，m+page_id返回了两个微博链接：m和page_id。我们可以手动去微博网站上截取第三页之后的所有微博链接。在爬虫实现这个功能之前，要确保需要提取的信息，都放在一个html文件中，然后通过循环把html文件里的所有内容。

0

2021-12-10

工具采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

工具采集文章(利用mongo+libpot+xslt格式插件抓取新浪微博热门话题)

0 个评论

发起人

AI时代内容工厂

工具采集文章(利用mongo+libpot+xslt格式插件抓取新浪微博热门话题)

0 个评论

发起人

相关问题