专栏文章

优采云发布时间: 2020-08-04 01:02

　　但光这样还不足够，因为我画力导向图的本意是想表现出两个用户之间的互动关系，是“互”动关系。如果B是A的一个狂热粉丝，而A却反倒不太答理B，也就是B在A处得分高，但A在B处得分低。在这样的情况下，A和B似乎不应当以太亲昵的状态出现在力导向图上。

　　基于这些情况，我对relation_score表进行了更进一步的处理，当A和B彼此都有较高的互动分数时，才会得到一个很高的最终得分，单方面的得分则会被大打折扣，也就是说通过关键词采集文章采集api，将A∩B的分数的残差减小数十倍，然后借此再重新进行打分。最终得到一个新的表links

　　三、数据可视化

　　因为想画出比较灵活的力导向图，所以选用了D3：

　　具体做可视化的时侯，发现两用户之间的得分数据分布，大概呈右图所示（只是*敏*感*词*，不是精确勾画的）：

　　换句话说，分数越低的区间，人数越多，10~15分之间有500多人，而99-138分的人却只有6个人。所以假如要是简单地按照分数来线性地决定节点之间的力，结果只会有几个人距得太逾，其他大部分人都将距得超远，而且低分人群将难以拉开差别，高分的人之间差别很大但却没哪些意义。数据呈现不显著，力导向图也不太好看。

　　尝试了许多方案，最后采用了分段线性的方案。

　　比如得分最高的6个人，分数跨径似乎在 99~138，但节点间斥力仅在 0.9~1.0 间变化，而得分低的500多个人，就算分数只有10-15这样小的跨径，作用力却能在 0.0~3.0 这样广的范围里变化。

　　最后得出的图如下：

　　四、观察数据

　　从图大约能看下来各人在微博上抱团的同事圈子，以及两个人之间的互动关系。

　　当数据量调到最大时，甚至会发觉微博furry圈子里的“宇宙中心”级人物。

　　另外，前边说过，采集的数据并不完美通过关键词采集文章采集api，从最终的图上也能看下来一二。

　　比如：

　　这张图上两个圈内的这些人，并非是furry圈的人。属于误采集的一部分数据。会听到这部份误采集并且活跃的用户会在力导向图中抱团在一起，所以也可以依据此来做更进一步的数据清洗。

　　五、其他数据

　　力导向图展示的是一个整体的、宏观的数据状况。但实际上你们可能比起宏观数据，更关心自己个人的数据，于是进一步还做了个人数据的页面。

　　这个就直接为了省事，选用echarts3的饼图：

　　毕竟好不容易做下来的东西，还是希望你们能多好好地看一看。

　　到此，这个小小的独立数据产品即使竣工了。

　　在制做的过程中也了解了许多有意思的东西。

　　……

　　后来我发觉自己做的这个小网站居然收获了上万次的访问量，访问人数也有3500人之多，看着这个access log，心生了继续将这部份数据借助上去的看法。

　　六、再次采集、处理

　　其实有一点懊悔，没有在自己做的网站上做更复杂一些的埋点，结果访问信息只保存出来了默认的access log，也就是访问的URL、时间、IP地址等信息。

　　前边提及，有人做过furry的地图分布，但疗效不理想。我当然也可以用自己网站的access log来做同样的东西。

　　IP地址是个好东西，可以通过它获得地市信息，知道这个IP来自哪国哪市哪区，进而实现地域的分布统计。

　　另外还可以从URL信息中提取出是谁的个人数据页面被访问，换言之，知道了各页面的访问频次，也就晓得了你们对谁的个人数据更感兴趣。

　　七、地图可视化

　　这次为了图省事完全就直接用了echarts了，而且是在本地做的，没有上线，所以只有截图。

　　最后依照你们对个人页面的访问频次做了一个词云图，通过这张图可以看下来，我一开始选购的四个采集用户，也确实是你们太感兴趣的人呢。

　　八、其他参考资料

　　IP地区信息：

　　地市经纬度信息：

　　地图、词云数据可视化：

　　结语：

　　做数据尽管挺有趣的，但可惜我的部门在公司仍然被觉得是一个似乎“不明觉厉”但总之“不做软件不能换钱于是不配合她们工作也问题不大”的存在，去年年初更是由于公司高层嬗变丧失几大靠山而遭到爆破，受到了毁灭性的严打。想使其他各应用部门和技术营运部门配合我们做数据埋点、抽库采集、业务知识交流之类的工作更是难上加难。真希望能有更多更好的数据以及更好的一个平台能使自己见识更广，在大数据的路上走得更远。

　　真艳羡能领到那么多FB数据的那种*敏*感*词*公司啊（（（（（

0

2020-08-04

通过关键词采集文章采集api

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

专栏文章

0 个评论

发起人

AI时代内容工厂

专栏文章

0 个评论

发起人

相关问题