采集器采集(数据采集器采集大量信息的前提条件有两点:)
优采云 发布时间: 2022-02-17 18:01采集器采集大量信息的前提条件有两点:如果数据采集器是通过网络进行采集的,那么每一个节点都要通过网络进行传输;如果数据采集器是直接从硬盘拷贝进去的,那么这些节点就不需要经过网络,直接读取硬盘就可以。因此根据这两点,笔者就能得出这样一个简单的答案:由硬盘向硬盘或者由网络向网络的读取以及拷贝必然会造成采集过程中的数据丢失。
那是你缺少一个数据压缩过程。好好学习infoq。
现代的数据采集采用http,tcp,udp等等等等,都是传输大文件,为了避免udp出问题;其中udp是传输数据,而http等等需要协议头。所以可能你的问题是因为ipv6网络协议头没有给你规定文件大小所造成的。
有两种模式可以解决这个问题:第一种模式,只读的数据不会丢失,可以直接通过网络向硬盘或者本地的硬盘读取,但是回传数据的时候无法避免。第二种模式,只读数据会被解压成小文件,放到目标硬盘上返回;同时,无论目标硬盘是从网络读取还是从本地硬盘读取,最终都会转换成和原始文件的大小一样的格式。至于你问到的数据体积为什么不会增加,好像要先问问你,你采集的数据压缩到多大尺寸最合适。如果压缩程度高,产生的数据量就大。如果压缩程度太小,或者压缩算法不好,大量的数据还是会丢失。