文章采集发布(极客邦新产品——极客搜索,整合技术文章资源)

优采云 发布时间: 2021-11-02 12:10

  文章采集发布(极客邦新产品——极客搜索,整合技术文章资源)

  近日,极客网发布了一款新产品——极客搜索,整合极客帮的技术资源。抱着尝鲜的态度,我也试了一下,发现搜索速度极快。分析为什么这么快,主要有两点:1、资源太少!!!,12个公众号加起来5161个文章;2、 使用Vue框架,异步加载数据。这个产品还是很有用的,推荐一下,希望能快速增加可搜索的技术资源。

  

  最近想采集一些文章做分词。接口是用vue写的,所以所有的数据都是接口,所以数据采集非常方便,所以心血来潮,趁着产品刚上市,防爬机制应该不强,所以我采集得到了极客的所有公众号数据。一:文章采集

  主要分为两步,采集文章链接和原文采集。

  1、采集文章链接,通过搜索界面,抓取所有文章链接

  

  从返回的数据中,可以抓取到文章的原文链接,再链接到采集的原文数据。

  2、原创资料采集

  使用scrapy框架获取采集微信文章的数据,共采集5151篇文章。

  

  具体代码见文末地址

  二:数据分析

  接下来,我对采集的文章做了一些简单的统计。

  1、哪个公众号写得最多文章

  infoQ写的文章最多,998篇,占比19.35%。StuQ以835篇文章排名第二,占比16.19%,EGONetworks以802篇文章排名第三,占比15.55%。这三部分恰好是极客科技的三大业务。

  

  2、每天发布的文章总数

  随着越来越多的公众号开通,文章的数量不断攀升,2017年达到每月250多篇,编辑能力很强。

  

  算一下每天发布的文章数量:很规律,周一到周五发帖多,周六周日发帖少。在周六和周日努力工作的人。

  

  3、文章 词频统计

  对所有文章进行分词,然后统计词频。

  Top 10:我们,一,数据,技术,罐头,服务,使用,需求,问题,系统

  

  前 10 个词是:我们需要使用系统来服务技术或数据问题。是不是在暗示什么?我可以为你开发一个吗?商机就在这里。由于没有对分词结果做任何调整,所以出现了很多常用的修饰语等。这是一项对体力要求很高的工作,稍后会完成。

  4、作者统计

  统计数据基于文章的作者。Top 10:StuQ、EGO、InfoQ、徐川、大嘉硕、陈媛媛、Q News、Indigo K&郭亮、Stark Academy、Daniel V Classroom。

  

  5、文章 头条趋势

  文章的标题命名也反映了一段时间的趋势,所以我把文章的所有标题都提取出来做了一个分词。通过自定义jieba字典,去掉很多修饰符,得到了下面的结果。

  2015年:技术排名第一,也符合极客的特点。我们提到了很多直播和微课堂,主要是StuQ公众号广告太多。当然,你也可以看到一些过去流行的词,比如互联网金融、大数据、创业、容器技术。

  

  2016年:技术仍居首位。有云计算、开源等词。同时,国内也有很多大型企业,如阿里、AWS、百度、京东等。

  

  2017年:技术在不断变化,机器学习、深度学习、人工智能、AI等词汇的使用量不断增加,与当前各种学习热潮相吻合。

  

  从文章的标题命名来看,极客帮微信公众号的内容基本紧跟最新科技趋势。把握科技发展趋势,分析题目就行。

  三:总结

  本文的主要工作是数据采集和分析。对于数据采集来说,不难,使用scrapy可以快速完成。数据分析比较耗时,我只做了一些简单的统计。后面会根据数据做一些文本关联分析。

  数据的显示地址,源码也已经放在github,crawler-geekbang/geekbang at master · xuxping/crawler-geekbang · GitHub

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线