不用采集规则就可以采集啊,为什么要这么做?

优采云 发布时间: 2022-08-31 01:01

  不用采集规则就可以采集啊,为什么要这么做?

  不用采集规则就可以采集啊。前几天遇到这么一个需求,用vue爬取某乎用户发布的404页面信息。前端代码里:api接口的数据需要先进行解析,然后将解析出来的信息保存到数据库上,然后再返回给你。那是不是就必须要在数据接口的入口页面,写一个指定格式的url,用来进行数据解析才可以采集呢?是的,确实是必须这么做的。

  

  但是如果你能找到一个可以复用的代码库,并定义成schema保存下来,那样应该还是可以偷懒的。接下来说下这种方法是如何规范化的规划数据的采集规则的,以及为什么要这么做。数据采集规范首先要理解为什么需要数据采集规范化?这得从“数据采集”说起。我们是不是经常在大量数据采集的时候遇到需要保存的部分数据规则比较多的情况?比如有大量的不同性别的用户昵称;有不同性别的用户每一篇日志的名字;有不同性别的用户发布的日志的年龄段;有不同性别的用户的每一条日志的类型如果要规定一个编码格式的格式,得先进行一个确定的编码和采集格式,之后才能将采集到的数据放到数据库进行有序存储。

  前端一个项目里,性别用到比较多的就是用户的用户名+性别。这个时候就需要将不同性别的用户昵称用一个指定编码进行编码。如性别a的人所有的日志用编码编码保存为xxxxxxxxx.js,性别b的人所有的日志用编码编码保存为xxxxxxxxx.js,性别c的人所有的日志用编码编码保存为xxxxxxxxx.js。

  

  然后在settings.js里引入这个编码信息。这样就生成了一个编码格式的样式,供我们在数据编码时可以通过这个样式来确定采集规则的最终编码。或者在采集数据时,时常需要调用回调函数,或者判断某个数据或数据组件的日志是否正确,或者与别的数据组件交互或响应,我们也可以在settings.js引入这个编码格式的信息。

  这样做的主要作用是保证数据传递的安全性,编码可以保证传递给前端的数据不经过任何人或者设备的处理。数据采集规范化是前端工程化非常重要的一环,不仅要保证采集数据的正确性,还要为日后做数据持久化保证可靠性。采集的规则化程度越高,意味着对数据源的约束越少,对日后组件交互的约束越少,使得后续的迭代改进更容易。数据采集规范化过程规范化采集规则的过程分为两步:第一步,是数据库的建设。

  数据库管理应用的管理越低,数据库越少,后续处理的复杂度就越低。其中采集规则的命名和格式管理已经有详细的规范,这里不再详细描述。另外数据的分组和设计将是数据采集规范化的另一个重要环节。数据库的命名、数据分组、数据列表这三个参数分别可以用于检索数据、搜索内容索引以及。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线