极客邦新产品——极客搜索,整合技术文章资源
优采云 发布时间: 2021-08-15 00:02极客邦新产品——极客搜索,整合技术文章资源
近日,极客帮发布了一款新产品——极客搜索,它整合了极客帮下的文章sources技术。抱着尝鲜的态度,我也试了一下,发现搜索速度极快。分析为什么这么快,主要有两点:1、resources太少!!!,12个公众号加起来5161文章; 2、使用Vue框架异步加载数据。这个产品还是很有用的,推荐一下,希望能快速增加可搜索的技术资源。
最近想用采集一些文章来做分词。这个接口是用vue写的,所以所有的数据都是通过接口,所以数据采集极其方便,所以心血来潮,趁着产品刚刚上线,防爬机制应该不会强,所以采集拥有极客邦的所有公众号数据。一:文章采集
主要分为采集文章链接和原文采集两步。
1、采集文章链接,通过搜索界面,抓取所有文章链接
从返回的数据中可以抓取文章原文本的链接,下一步就是链接采集原文本的数据。
2、原信息采集
使用scrapy框架获取采集微信文章数据,共5151篇采集文章。
具体代码见文末地址
二:数据分析
接下来,我对采集的文章做了一些简单的统计。
1、哪个公众号写得最多文章
infoQ 写了最多的文章,998 篇,占 19.35%。 StuQ以835篇文章排名第二,占比16.19%,EGONetworks以802篇文章排名第三,占比15.55%。这三部分恰好是极客科技的三大业务。
2、文章每日发布总数
随着越来越多的公众号开通,文章的数量不断上升,2017年达到每月250多篇,编辑能力很强。
文章每天发帖数统计:很规律,周一到周五发帖多,周六周日发帖少。周六周日努力工作的人。
3、文章词频统计
对所有文章词进行切分,然后统计词频。
Top 10:我们、一、数据、技术、罐头、服务、使用、需求、问题、系统
前 10 个词是:我们需要使用系统来服务技术或数据问题。是不是在暗示什么?我可以为你开发一个吗?商机就在这里。由于没有对分词结果做任何调整,所以出现了很多常用的修饰语等。这是一项对体力要求很高的工作,稍后会完成。
4、作者统计
基于文章作者的统计数据。前 10 名:StuQ、EGO、InfoQ、徐川、大嘉硕、陈媛媛、Q News、Indigo K 和郭亮、Stark Academy、Daniel V Classroom。
5、文章Title 趋势
文章标题的命名也反映了一段时间的趋势,所以我提取了所有文章标题并进行了分词。通过自定义jieba的字典,去掉很多修饰符等,得到如下结果。
2015:技术第一,这也符合极客的特点。我们提到了很多直播和微课堂,主要是StuQ公众号广告太多。当然,你也可以看到一些过去流行的词,比如互联网金融、大数据、创业、容器技术。
2016 年:技术仍然位居第一。出现了云计算、开源等词。同时,国内也有很多大公司如阿里、AWS、百度、京东等。
2017年:技术在不断变化,机器学习、深度学习、人工智能、AI等词汇的使用量不断增加,与当前的学习热潮相吻合。
从文章title的命名来看,极客帮微信公众号的内容基本紧跟最新科技趋势。把握科技发展趋势,分析题目即可。
三:总结
本文的主要工作是数据采集和分析。对于数据采集,不难,使用scrapy可以快速完成。数据分析比较耗时,我只做了一些简单的统计。后面会根据数据做一些文本关联分析。
数据的显示地址,源码也已经放在github,crawler-geekbang/geekbang at master · xuxping/crawler-geekbang · GitHub