文章定时自动采集如何确定的？是纯文本还是数据库都处理过了！

优采云发布时间: 2021-04-09 03:08

　　文章定时自动采集，通过一个specialcy是作为判断，用于删除某个数据库被unauthorized的数据，每次采取最新数据，否则unauthorized（被删除）。减少服务器空间占用。

　　step1通过suppersnap采集数据。step2通过java本身api，获取整个database中，每个节点(比如mydb)的数据。step3通过expireset返回每个节点的数据存放时间。

　　step1用geany采集数据step2用mysql插入数据到mysqlstep3用oracle

　　用标准的xml或者json文件。用做为关键词搜索。因为xml或者json文件没有对应的类型存在，采集会比较麻烦。而且通常用户在数据获取方面更喜欢使用xml文件，因为xml描述了数据库的关系，因此可以清晰地展示数据。不过由于数据库是oracle提供的，也可以直接从xml文件中导入数据。

　　所以和这个有区别吗？一方面想体现数据是可读写的，另一方面想体现数据的完整性，目前来说，没有有效可行的解决方案，虽然可以把数据都采到java上，但是考虑到性能，需要大文件处理，并不是很好的解决方案，而且，数据再多再复杂，也不是java和mysql能够处理的！非得把数据多复杂化，也需要考虑性能，java处理起来是比较慢的！不知道你这边的数据是如何确定的？是纯文本？还是数据库都处理过了！如果是纯文本，需要用xml处理！如果用mysql，那么把数据库的关系都拿到java层，再做关系处理！。

0

2021-04-09

文章定时自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

文章定时自动采集如何确定的？是纯文本还是数据库都处理过了！

0 个评论

发起人

AI时代内容工厂

文章定时自动采集如何确定的？是纯文本还是数据库都处理过了！

0 个评论

发起人

相关问题