当我们的峰会遇到网路爬虫。。。

优采云 发布时间: 2020-05-13 08:03

  

  当我们的峰会遇到了网路爬虫,会发生哪些呢?

  闲来无事,逛峰会的时侯突发奇想,想要探究一下猖獗于峰会上的各类贴子,哪种类型最受你们欢迎,查看数和回复数最多。于是,我开始动手了。

  俗话说:“巧妇难为无米之炊。”要想对峰会的贴子数据进行剖析,首先得有数据。于是乎网路爬虫技术闪亮登场。

  说到爬虫,那是Python的拿手好戏。然而鄙人我早已习惯了使用土掉渣的VBA。。。Whatever,继承于当初盛极一时的VB,加之编译型语言的速率优势,VBA还是易用而又强悍的。不屁话了,talk is cheap, show me the code.(见附图01)

  VBA代码和执行结果(局部)

  

  鉴于峰会贴子数目的庞大和生命的有限,我这儿只以版块“金融学(理论版)上传下载专区”为剖析对象,而且只爬取了前100页的内容网络爬虫论坛,得到了8000条贴子记录(除去未设置贴子类型的,共7224条)。(见附图02)

  爬取的贴子结果

  

  之后,就做了一个非常简单的数据透视表剖析(谁叫我的目的这么单纯。。)。分析结果见附图03。

  数据透视表剖析

  

  我们从这样的一张图表中可以发觉哪些呢?

  其一,就发帖量而言,“教材与书籍”占据榜首,说明峰会上有很多人乐于分享经管书籍,分享知识,相信这也是秉持了峰会创办人的初心吧(知识产权哪些的另说。。)。其次分别是“金融市场与投资”和“金融经济学”,而金融学研究版图中另外重要的两块——“公司金融”和“国际金融”则发帖量相对少了好多。“量化金融”作为近些年来火得一塌糊涂的话题,发帖量达到325,跟“公司金融”几乎齐头并进,势头不可轻忽。

  其二,我们关注各种贴子的平均回复数和平均查看数。不同类别的贴子,这两个指标的表*敏*感*词*融”、“公司金融”和“数据”。“量化金融”的关注量之高相信你们不会震惊,这玩意还自带点高科技的神秘色调,动不动就跟高深莫测的物理模型和计算机技术搭上面;“数据”类贴子的表*敏*感*词*融”,我是没搞明白这玩意为何发帖量少但关注度还很高,跟它发帖量差不多的“银行与金融监管”版块平均回复和查看数就差了一截网络爬虫论坛,或许这一点值得进一步剖析(当然也有可能只是统计的随机性,毕竟只爬了100页而已)。

  爬虫和剖析工作到这儿暂告一段落。经此一役,我对“量化金融”的火火火有了更进一步的认识。不过话说回去,中国证券市场还徘徊在弱有效的边沿,能玩得转量化金融吗?(杠精搞不好怼我当初饭都喝不饱还搞原*敏*感*词*呢,这是俺中国特色)。反正最后我是把这篇贴子发在了“量化金融”版,金融未必沾得上面,但量化剖析却是妥妥的。朋友们,让我们瞧瞧这能不能成为我查看数最多的一篇贴子~~~

  -----The end-----

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线