新粉福利在数据采集和问卷编辑环节的注意事项

优采云 发布时间: 2022-09-06 15:00

  新粉福利在数据采集和问卷编辑环节的注意事项

  文章定时自动采集加载,首发于公众号新粉福利在数据采集和问卷编辑环节,有些小伙伴会碰到一些问题。比如:①采集的记录有时候就是三五条,有些情况下打开网页也能看到记录,有些情况下是一直空白,这些就是采集技术方面出现问题导致。②有些问卷数据太多,由于种种原因无法全部采集,这时候就需要在meta填写完后,单独采集问卷记录数据。

  

  ③其他的一些情况,就是需要保存用户全部信息。有的采集公司会提供所有人的用户全部信息(通常要交一大笔费用),另外还有人工保存,有些公司则不保存用户信息。为什么采集人信息会是很多问题,可能是技术方面有问题,这时候我们可以考虑那些“将人物信息共享给人工填写”的方式,基本上它能同时解决以上几种问题。这里需要引入一个新的问题:*敏*感*词*信息输入。

  通常*敏*感*词*信息不只是两三条,当需要采集n条时,要让每一个正常人只输入一条,只能让他填1-n的用户数据,放到一个表格中再分表填写,一般来说除了工作原因,没有谁会这么干,因为效率问题。*敏*感*词*信息输入是一个比较复杂的过程,通常是采用数据库的方式保存,然后人工输入完毕后再复制一份,再生成txt文件。但在数据库里,同一用户一条记录的用户昵称、性别、出生年月日这三个用户属性,在多条记录中是不会产生歧义的,即便其中有一个是正确的。

  

  在问卷编辑过程中,比如人工输入或统计过程中,很多情况下都能定位到几个不同的用户昵称。想想,就算大家设置的信息全部是错误的,也总有其中某些是比较容易观察的,这时候难免会容易乱填乱填就乱填喽!所以既然你没有把用户的信息全部填完,那么后续任何数据库操作以及问卷操作的结果,都是不保证正确的,存在伪随机性。即便我们最后把用户信息全部填完,其实那也是一堆不具有价值的数据,如果你要做量化投资的产品,自然也是不用care这些。

  市面上有很多统计类的网站,提供了这方面的需求。收集完用户的信息以后,如果能够精确到一个特定的正确数值,那自然是再好不过,但用户这些特定的需求,往往是缺失的。对于我们数据源的分析师来说,单凭这些需求对于分析来说,简直就是凤毛麟角,那该怎么办呢?同理可得:获取一个人的所有信息对于大多数产品来说,其实就是一个伪命题。

  经过不断完善标准化的统计需求,我们就能在产品设计以及数据设计上,尽可能避免或者减少*敏*感*词*不同这种“不确定性”问题,那是不是就可以避免各种用户问题?既然不可避免,那我们是不是不需要去做问卷数据处理?现在很多网站提供了问卷接口,提供可以采集用户*敏*感*词*信息的接口。但。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线