文章定时自动采集如何确定的?是纯文本还是数据库都处理过了!

优采云 发布时间: 2021-04-09 03:08

  文章定时自动采集如何确定的?是纯文本还是数据库都处理过了!

  文章定时自动采集,通过一个specialcy是作为判断,用于删除某个数据库被unauthorized的数据,每次采取最新数据,否则unauthorized(被删除)。减少服务器空间占用。

  step1通过suppersnap采集数据。step2通过java本身api,获取整个database中,每个节点(比如mydb)的数据。step3通过expireset返回每个节点的数据存放时间。

  step1用geany采集数据step2用mysql插入数据到mysqlstep3用oracle

  用标准的xml或者json文件。用做为关键词搜索。因为xml或者json文件没有对应的类型存在,采集会比较麻烦。而且通常用户在数据获取方面更喜欢使用xml文件,因为xml描述了数据库的关系,因此可以清晰地展示数据。不过由于数据库是oracle提供的,也可以直接从xml文件中导入数据。

  所以和这个有区别吗?一方面想体现数据是可读写的,另一方面想体现数据的完整性,目前来说,没有有效可行的解决方案,虽然可以把数据都采到java上,但是考虑到性能,需要大文件处理,并不是很好的解决方案,而且,数据再多再复杂,也不是java和mysql能够处理的!非得把数据多复杂化,也需要考虑性能,java处理起来是比较慢的!不知道你这边的数据是如何确定的?是纯文本?还是数据库都处理过了!如果是纯文本,需要用xml处理!如果用mysql,那么把数据库的关系都拿到java层,再做关系处理!。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线