智能采集器(我个人推荐telegraphfacebook的网站返回数据量是相对大一些)
优采云 发布时间: 2021-09-11 07:04智能采集器(我个人推荐telegraphfacebook的网站返回数据量是相对大一些)
智能采集器可以只要cto水平高,能够合理指定采集类型和一些特殊策略,就能得到不错的数据结果,一些次一点的数据相对是比较丰富的,但另一方面也有限制,像一些文本类的数据如果不涉及很多相关性但又可以得到很好的结果就是不错的,但是百分比方式返回的数据虽然能得到粗略数据,但要得到精确的结果的话能返回的数据会很有限。
有个同学在里面做采集,他说做的比之前做的etl的效果差很多,但感觉跟人工还是相差不大的。要说不足是cto没什么特别高级的水平,靠机器学习的成本很高,特别是对的编程能力要求很高,如果没有专门做过人工智能的数据类型处理,机器学习的能力不会太强,要说有更好的选择,其实成熟稳定的chatclient也不错,而且即使不在里面做深度学习,也可以直接应用fb特别推荐的另一个网站telegraph里面的tags来采集数据,毕竟他们自己算法用的很多,得到的数据还是相对比较精准。
如果你不是搞技术的,只是想采集一些个人信息的话,不用担心这点,像你在豆瓣app里看到我发的东西,我其实是只用了一个返回链接而已,但这个返回的并不是你个人信息,只是app返回的一个链接,不同于google给你的是google的presentation里用的,即使是其他软件,只要是一个被分类到newswebsite里的,自己就可以获取个人信息,这个是可以自己做主动选择的。
我个人推荐telegraph,facebook的网站返回数据量是相对大一些,如果你看我发的东西更多,觉得新奇的,可以直接post个人信息到telegraph去。p.s.其实豆瓣app本身也是个隐私数据库,这一点我觉得他们需要考虑一下,用手机登录他们是不需要再次收集你的任何数据,这可能会增加获取的难度和成本。