Geekbang公共帐户文章采集和统计信息

优采云 发布时间: 2020-08-07 03:19

  最近,Geekbang发布了新产品– Geek Search,该产品整合了Geekbang下的技术文章资源. 我以早期采用者的态度进行了尝试,发现搜索速度非常快. 在分析了为什么这么快之后,有两个要点: 1.资源太少!!!!,12个公共帐户共计5,161条; 2. Vue框架用于异步加载数据. 我推荐该产品,它仍然非常有用,希望很快增加可搜索的技术资源.

  

  我最近想采集一些文章以进行分词. 该接口是用Vue编写的,因此所有数据都是该接口,因此数据采集非常方便,所以一时兴起,利用刚刚推出的产品,其防爬机制应该不强,因此所有官方帐户采集了Geekbang的数据. 一: 文章采集

  它主要分为两个步骤,采集文章链接和原创文本采集.

  1. 采集文章链接,并通过搜索界面获取所有文章链接

  

  从返回的数据中,您可以获取指向文章原创文本的链接,下一步是通过该链接采集原创数据.

  2. 原创信息采集

  使用scrapy框架采集有关微信文章的数据. 总共采集了5151篇文章.

  

  有关具体代码,请参见文章末尾的地址

  二: 数据分析

  接下来,我们对采集到的文章进行了一些简单的统计.

  1. 哪个官方帐户写的文章最多

  infoQ写的文章最多,有998条,占19.35%. StuQ排名第二,共835条,占16.19%; EGONetworks排名第三,共802条,占15.55%. 这三个部分恰好是Geekbang Technology的三大业务.

  

  2,每天发表的文章总数

  随着越来越多的官方帐户的使用,文章数量不断增加,2017年每月可以达到250篇以上. 编辑能力非常强.

  

  每天发表的文章数量的统计: 这是很规律的,周一至周五发表的文章更多,而周六和周日发表的文章较少. 在周六和周日努力工作的人.

  

  3,文章词频统计

  对所有文章进行分词,然后计算词频.

  前10名: 我们,一个,数据,技术,罐头,服务,使用,需求,问题,系统

  

  前十个词合在一起是: 我们需要使用系统来解决技术或数据问题. 暗示着什么吗?我可以为您开发一个吗?商机在这里. 由于未对分词结果进行任何调整,因此出现了许多常用的修饰词等. 这是一项艰巨的任务,将在以后完成.

  4. 作者统计

  统计数据基于本文的作者. 前10名: StuQ,EGO,InfoQ,徐川,大加硕,陈元媛,Q News,Indigo K和郭亮,斯塔克学院,丹尼尔五世教室.

  

  5. 文章标题的趋势

  文章标题的命名也反映了一段时间内的趋势,因此我提取了所有文章的标题并进行了分词. 通过自定义jieba的字典并删除许多修饰符,我得到了以下结果.

  2015年: 技术排名第一,这也符合Geekbang的特征. 我们提到了很多直播和微型教室,主要是因为StuQ的官方帐户上的广告过多. 当然,您也可以看到过去一些流行的词语,例如互联网金融,大数据,企业家精神和容器技术.

  

  2016年: 技术仍然排名第一,云计算和开源之类的词出现了,还有许多大型国内公司,如Ali,AWS,百度,京东等.

  

  2017年: 技术一直在变化,机器学习,深度学习,人工智能,人工智能等词语的使用正在增加,这与当前的学习热潮相吻合.

  

  从文章标题的命名来看,Geekbang的微信官方帐户的内容基本上遵循最新的技术趋势. 掌握技术发展趋势,仅分析标题即可.

  三: 总结

  本文的主要工作是数据采集和分析. 对于数据采集,这并不困难,并且可以通过使用scrapy快速完成. 数据分析很耗时,我只做一些简单的统计. 稍后,我们将基于数据进行一些文本关联分析.

  数据的显示地址,源代码也已放置在github上的github,crawler-geekbang / geekbang·xuxping / crawler-geekbang·GitHub

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线