专栏文章
优采云 发布时间: 2020-08-04 01:02
但光这样还不足够,因为我画力导向图的本意是想表现出两个用户之间的互动关系,是“互”动关系。如果B是A的一个狂热粉丝,而A却反倒不太答理B,也就是B在A处得分高,但A在B处得分低。在这样的情况下,A和B似乎不应当以太亲昵的状态出现在力导向图上。
基于这些情况,我对relation_score表进行了更进一步的处理,当A和B彼此都有较高的互动分数时,才会得到一个很高的最终得分,单方面的得分则会被大打折扣,也就是说通过关键词采集文章采集api,将A∩B的分数的残差减小数十倍,然后借此再重新进行打分。最终得到一个新的表links
三、数据可视化
因为想画出比较灵活的力导向图,所以选用了D3:
具体做可视化的时侯,发现两用户之间的得分数据分布,大概呈右图所示(只是*敏*感*词*,不是精确勾画的):
换句话说,分数越低的区间,人数越多,10~15分之间有500多人,而99-138分的人却只有6个人。所以假如要是简单地按照分数来线性地决定节点之间的力,结果只会有几个人距得太逾,其他大部分人都将距得超远,而且低分人群将难以拉开差别,高分的人之间差别很大但却没哪些意义。数据呈现不显著,力导向图也不太好看。
尝试了许多方案,最后采用了分段线性的方案。
比如得分最高的6个人,分数跨径似乎在 99~138,但节点间斥力仅在 0.9~1.0 间变化,而得分低的500多个人,就算分数只有10-15这样小的跨径,作用力却能在 0.0~3.0 这样广的范围里变化。
最后得出的图如下:
四、观察数据
从图大约能看下来各人在微博上抱团的同事圈子,以及两个人之间的互动关系。
当数据量调到最大时,甚至会发觉微博furry圈子里的“宇宙中心”级人物。
另外,前边说过,采集的数据并不完美通过关键词采集文章采集api,从最终的图上也能看下来一二。
比如:
这张图上两个圈内的这些人,并非是furry圈的人。属于误采集的一部分数据。会听到这部份误采集并且活跃的用户会在力导向图中抱团在一起,所以也可以依据此来做更进一步的数据清洗。
五、其他数据
力导向图展示的是一个整体的、宏观的数据状况。但实际上你们可能比起宏观数据,更关心自己个人的数据,于是进一步还做了个人数据的页面。
这个就直接为了省事,选用echarts3的饼图:
毕竟好不容易做下来的东西,还是希望你们能多好好地看一看。
到此,这个小小的独立数据产品即使竣工了。
在制做的过程中也了解了许多有意思的东西。
……
后来我发觉自己做的这个小网站居然收获了上万次的访问量,访问人数也有3500人之多,看着这个access log,心生了继续将这部份数据借助上去的看法。
六、再次采集、处理
其实有一点懊悔,没有在自己做的网站上做更复杂一些的埋点,结果访问信息只保存出来了默认的access log,也就是访问的URL、时间、IP地址等信息。
前边提及,有人做过furry的地图分布,但疗效不理想。我当然也可以用自己网站的access log来做同样的东西。
IP地址是个好东西,可以通过它获得地市信息,知道这个IP来自哪国哪市哪区,进而实现地域的分布统计。
另外还可以从URL信息中提取出是谁的个人数据页面被访问,换言之,知道了各页面的访问频次,也就晓得了你们对谁的个人数据更感兴趣。
七、地图可视化
这次为了图省事完全就直接用了echarts了,而且是在本地做的,没有上线,所以只有截图。
最后依照你们对个人页面的访问频次做了一个词云图,通过这张图可以看下来,我一开始选购的四个采集用户,也确实是你们太感兴趣的人呢。
八、其他参考资料
IP地区信息:
地市经纬度信息:
地图、词云数据可视化:
结语:
做数据尽管挺有趣的,但可惜我的部门在公司仍然被觉得是一个似乎“不明觉厉”但总之“不做软件不能换钱于是不配合她们工作也问题不大”的存在,去年年初更是由于公司高层嬗变丧失几大靠山而遭到爆破,受到了毁灭性的严打。想使其他各应用部门和技术营运部门配合我们做数据埋点、抽库采集、业务知识交流之类的工作更是难上加难。真希望能有更多更好的数据以及更好的一个平台能使自己见识更广,在大数据的路上走得更远。
真艳羡能领到那么多FB数据的那种*敏*感*词*公司啊(((((