极客邦新产品——极客搜索,整合技术文章资源

优采云 发布时间: 2021-08-15 00:02

  极客邦新产品——极客搜索,整合技术文章资源

  近日,极客帮发布了一款新产品——极客搜索,它整合了极客帮下的文章sources技术。抱着尝鲜的态度,我也试了一下,发现搜索速度极快。分析为什么这么快,主要有两点:1、resources太少!!!,12个公众号加起来5161文章; 2、使用Vue框架异步加载数据。这个产品还是很有用的,推荐一下,希望能快速增加可搜索的技术资源。

  

  最近想用采集一些文章来做分词。这个接口是用vue写的,所以所有的数据都是通过接口,所以数据采集极其方便,所以心血来潮,趁着产品刚刚上线,防爬机制应该不会强,所以采集拥有极客邦的所有公众号数据。一:文章采集

  主要分为采集文章链接和原文采集两步。

  1、采集文章链接,通过搜索界面,抓取所有文章链接

  

  从返回的数据中可以抓取文章原文本的链接,下一步就是链接采集原文本的数据。

  2、原信息采集

  使用scrapy框架获取采集微信文章数据,共5151篇采集文章。

  

  具体代码见文末地址

  二:数据分析

  接下来,我对采集的文章做了一些简单的统计。

  1、哪个公众号写得最多文章

  infoQ 写了最多的文章,998 篇,占 19.35%。 StuQ以835篇文章排名第二,占比16.19%,EGONetworks以802篇文章排名第三,占比15.55%。这三部分恰好是极客科技的三大业务。

  

  2、文章每日发布总数

  随着越来越多的公众号开通,文章的数量不断上升,2017年达到每月250多篇,编辑能力很强。

  

  文章每天发帖数统计:很规律,周一到周五发帖多,周六周日发帖少。周六周日努力工作的人。

  

  3、文章词频统计

  对所有文章词进行切分,然后统计词频。

  Top 10:我们、一、数据、技术、罐头、服务、使用、需求、问题、系统

  

  前 10 个词是:我们需要使用系统来服务技术或数据问题。是不是在暗示什么?我可以为你开发一个吗?商机就在这里。由于没有对分词结果做任何调整,所以出现了很多常用的修饰语等。这是一项对体力要求很高的工作,稍后会完成。

  4、作者统计

  基于文章作者的统计数据。前 10 名:StuQ、EGO、InfoQ、徐川、大嘉硕、陈媛媛、Q News、Indigo K 和郭亮、Stark Academy、Daniel V Classroom。

  

  5、文章Title 趋势

  文章标题的命名也反映了一段时间的趋势,所以我提取了所有文章标题并进行了分词。通过自定义jieba的字典,去掉很多修饰符等,得到如下结果。

  2015:技术第一,这也符合极客的特点。我们提到了很多直播和微课堂,主要是StuQ公众号广告太多。当然,你也可以看到一些过去流行的词,比如互联网金融、大数据、创业、容器技术。

  

  2016 年:技术仍然位居第一。出现了云计算、开源等词。同时,国内也有很多大公司如阿里、AWS、百度、京东等。

  

  2017年:技术在不断变化,机器学习、深度学习、人工智能、AI等词汇的使用量不断增加,与当前的学习热潮相吻合。

  

  从文章title的命名来看,极客帮微信公众号的内容基本紧跟最新科技趋势。把握科技发展趋势,分析题目即可。

  三:总结

  本文的主要工作是数据采集和分析。对于数据采集,不难,使用scrapy可以快速完成。数据分析比较耗时,我只做了一些简单的统计。后面会根据数据做一些文本关联分析。

  数据的显示地址,源码也已经放在github,crawler-geekbang/geekbang at master · xuxping/crawler-geekbang · GitHub

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线