整套解决方案:电网数据采集系统的*敏*感*词*法
优采云 发布时间: 2022-10-28 11:24整套解决方案:电网数据采集系统的*敏*感*词*法
1、本发明涉及数据处理技术领域,具体涉及一种电网数据采集系统。
背景技术:
2、目前,我国电力供应普遍偏紧,部分地区和时期电力短缺严重。随着我国电网规模的不断扩大和电网复杂程度的日益提高,需要对各用电地区的用电量和用电高峰时段进行监测。利用电网数据进行用电量分析,得出合理的供电方案,缓解供电不足的局面。为此,通常使用data采集模块从各用电区域的电网数据库中采集电网数据,然后将电网数据采集传送到外部综合功耗分析系统。分析,在电网数据传输过程中,
3.多租户技术(多
——
租户技术)或多租户技术,是一种软件架构技术,是指在多个租户的环境中共享相同的系统或程序组件,同时保证每个租户之间的数据隔离。在多租户技术中,租户是指使用系统或计算机计算资源的用户,包括系统中所有可识别为指定用户的数据,如账户、统计信息、用户在系统中创建的各类数据,以及 users 自己定制的应用环境等,都属于租户的范围;租户使用的是供应商开发或提供的应用系统或运行资源。
4、因此,在data采集模块的基础上,结合多租户技术,首先为每个用电区域的电网数据库建立租户空间,每个租户空间接入电网对应用电区域的数据库,使得每个单个租户空间收录对应网格数据库中的所有网格数据,从而基于多个租户空间,可以保证每个用电区域的网格数据之间的隔离。而当前数据采集模块只能采集接收单一类型的电网数据,难以满足外部分析系统对电网数据进行综合分析的需求。
技术实施要素:
5、本发明要解决的技术问题是如何采集获取各类电网数据,以满足外部分析系统对电网数据进行综合分析的需要。
6、为了解决上述技术问题,本发明提供一种电网数据采集系统,包括数据采集模块和利用多租户技术生成的多个电网租户空间。 , 每个电网租户空间连接一个用电区域的电网数据库,电网数据库存储多个电网数据,data采集模块收录多种数据采集 引擎有不同的 data采集 方法,对于每个 data采集 一个网格租户空间,data采集 模块使用各种 data采集 引擎来 采集分别为各类网格数据。
7、优选地,数据采集引擎包括流采集引擎、批处理采集引擎、cdc采集引擎和网络爬虫采集引擎. 在每个网格租户空间中,data采集模块使用流式采集engine采集获取实时数据,使用batch 采集engine采集获取离线数据数据,使用cdc采集engine采集获取实时变化数据,使用网络爬虫采集engine采集获取网络数据。
8、优选地,流引擎包括用于实时计算的分布式实时大数据处理框架。
9、优选地,分布式实时大数据处理框架为风暴流框架。
10. 优选地,cdc采集引擎是非侵入式cdc采集引擎。
11、优选地,非侵入式cdc采集引擎为基于日志的cdc采集引擎,记录data采集过程中的每一次插入、更新、删除操作。进入日志。
12、优选地,网络爬虫采集引擎包括用于爬取网站页面并从网站页面中提取结构数据的应用框架。
13、优选地,应用框架为python编写的scrapy框架。
14、优选地,批处理采集引擎包括用于抓取屏幕页面并从屏幕页面中提取结构数据的应用框架。
15、优选地,应用框架为python编写的scrapy框架。
16、本发明的有益效果是:由于每个电网租户空间都连接到一个用电区域的电网数据库,每个租户空间都收录对应的电网数据库中的所有电网数据,data采集模块是采集不同方式的各类数据采集可以从每个网格租户空间使用引擎采集各种类型的网格数据,以满足外部分析系统对网格进行综合分析的需要数据。需要。
图纸说明
17、图1是网格数据采集系统的结构框图。
详细方法
18、下面结合具体实施例对本发明作进一步详细说明。
19、本实施例提供一种电网数据采集系统。如图所示。如图1所示,电网数据采集系统包括数据采集模块和采用多租户技术生成的多个电网。租户空间,每个电网租户空间连接到一个用电区域的电网数据库,每个电网数据库存储多个电网数据,那么每个租户空间收录对应的电网数据库中的所有电网数据电源应用领域。其中,多租户技术(多
——
租户技术)或多租户技术,是一种软件架构技术,是指在多个租户的环境中共享相同的系统或程序组件,同时保证每个租户之间的数据隔离。在多租户技术中,租户是指使用系统或计算机计算资源的用户,包括系统中所有可识别为指定用户的数据,如账户、统计信息、用户在系统中创建的各类数据,以及 users 自己定制的应用环境等,都属于租户的范围;租户使用的是供应商开发或提供的应用系统或运行资源。
20. data采集 模块包括四个data采集 引擎,具有不同的data采集 方法。这四个数据采集引擎包括流采集引擎、批处理采集Engine、cdc采集Engine和Web Crawler采集Engine。对于每个网格租户空间,data采集模块分别使用这四种数据采集引擎采集四种网格数据,具体来说,data采集模块使用流公式采集engine采集获取实时数据,使用batch 采集engine采集获取离线数据,使用cdc采集engine采集 获取实时变化数据,使用网络爬虫采集engine采集获取网络数据。
21. Streaming采集引擎收录一个实时计算的分布式实时大数据处理框架——storm Streaming框架,免费、开源、分布式、高容错性,使连续流计算成为可能简单的。与传统的Hadoop大数据处理框架相比,Storm流处理框架弥补了Hadoop大数据处理框架无法满足的实时性要求。流式采集引擎主要针对频率高、实时性强的数据(如计量系统产生的时序数据)进行采集。用户可以自定义数据的来源和协议采集,将数据经过简单的预处理后放入分布式消息队列,
——
命令
可读数据访问。
22、风暴流处理框架包括主节点nimbus和worker节点supervisor。主节点 nimbus 只有一个,工作节点监督者可以有多个。主节点 nimbus 运行 nimbus 守护进程,该守护进程负责跨集群分发代码、将任务分配给节点以及监控主机故障。每个worker节点supervisor都运行着supervisor守护进程,负责监控worker节点上已经分配的主机作业,以及启动和停止nimbus分配的worker进程。Storm Streaming 框架还包括 zookeeper 组件和 worker 组件。supervisor定期从zookeeper那里获取拓扑信息topology、task assignment信息assignments以及各种心跳信息,并据此分配任务。每个主管都会同步数据。同步过程中,会启动新的worker或者关闭旧的worker,并根据新的任务分配进行负载均衡。
23. cdc采集引擎(中心化数据采集引擎)是一个非侵入式的cdc采集引擎,具体来说是一个基于日志的cdc采集引擎,将数据采集进程中的每一次插入、更新、删除操作都记录在日志中,以便采集获取实时的变化数据。当基于日志的 cdc采集 引擎执行 data采集 操作时,不会对源系统产生性能影响。cdc采集引擎主要是指数据库的增量采集,专门针对动态变化的数据采集。数据的每一次变化都会记录在日志文件中。常用的方法是扫描数据库事务日志,通常需要上游(源)系统配合改造,并将日志开放给数据云平台。
24.网络爬虫采集引擎和批处理采集引擎都收录一个用python编写的应用框架——scrapy框架。网络爬虫采集引擎中的scrapy框架,用于爬取网站页面,从网站页面中提取结构化数据,获取网页数据;批量采集引擎中的scrapy框架用于爬取Screen页面,并从Screen页面中提取结构化数据以获取离线数据。批处理采集引擎主要用于采集大批量的数据文件,包括数据库采集和文件采集,可用于结构化数据采集 (可以是文本抽取、jdbc抽取、oracle抽取、hive抽取等)、半结构化数据采集(xml抽取)和非结构化数据采集(hbase抽取等))。网络爬虫采集引擎主要针对网页数据。根据用户浏览页面的url,自动从网上获取url对应的网页源文件,并解析得到其内容。
25、本实施例中,电网数据采集系统的data采集模块包括四种数据采集引擎,不同的data采集方法——streaming采集engine、batch采集engine、cdc采集engine和网络爬虫采集engine,那么data采集模块可以在不同的采集方法中使用四种数据采集引擎分别采集从每个网格租户空间采集四种网格数据——实时数据、离线数据、实时变化数据和网络数据,然后采集到电网数据 传输到外部分析系统进行用电综合分析,满足外部分析系统对电网数据进行综合分析的需要。例如,数据采集 模块可以分别从广州市电网租户空间采集以不同方式利用采集的四种数据采集引擎采集广州四种电网数据-实时数据、离线数据数据、实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电力Grid Tenant Space采集佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到综合使用的外部分析系统。电气分析,满足外部分析系统对电网数据进行综合分析的需要。采集不同方式的引擎分别来自广州市电网租户空间采集广州市四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电网租户空间采集佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。采集不同方式的引擎分别来自广州市电网租户空间采集广州市四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电网租户空间采集佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。分别来自广州市电网租户空间采集广州四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电网租户空间采集佛山四种电网数据——实时数据,离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。分别来自广州市电网租户空间采集广州四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电网租户空间采集佛山四种电网数据——实时数据,离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电网租户空间采集佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。实时变化数据和网络数据,来自东莞电网租户空间采集东莞四种电网数据——实时数据、离线数据、实时变化数据和网络数据,来自佛山电网租户空间采集佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。佛山四种电网数据——实时数据、离线数据、实时变化数据和网络数据,然后将四种电网数据采集传输到外部分析系统综合使用。电气分析,满足外部分析系统对电网数据进行综合分析的需要。
26、以上仅为本发明的一个实施例,并不限制专利的保护范围。本领域技术人员在本发明的基础上进行非实质性的改动或替换,仍属于专利保护的范围。
解决方案:微信公众号移动端数据采集与话题分析系统的设计与实现
【摘要】 移动互联网时代,社交媒体层出不穷,如Twitter、Facebook、微博、知乎等。作为后起之秀,微信拥有近10亿月活跃用户。据统计,微信公众平台公众号已达2000万以上,月均产出1.07亿条内容,成为信息传播和舆论发酵的主要场所之一。全面高效的采集和微信数据分析在热点话题发现、突发事件实时追踪、舆情监测等领域具有重要应用。本文针对微信API请求限速严格,接口开放程度低,现有网络爬虫采集 依托搜狗微信等第三方网站、采集数据不全、效率低等问题,设计并实现了移动数据采集系统。系统将数据采集迁移到移动端,利用自动化测试框架模拟普通用户在应用中对服务器的点击、浏览等请求,实现公众号的全历史消息和单个文章采集包括文字、用户评论、点赞等全维度数据。此外,在对采集得到的数据进行主题检测和进化分析时,本文提出了一种基于去噪的主题检测方法和一种基于增强字体的主题进化方法。公众号文章 收录热点新闻和大量非热点新闻。如果使用聚类算法进行直接聚类,容易受到异常值(非热点新闻)的影响,聚类效果较差。根据论文设计的系统采集数据的全面性,本文提出了一种多维有效的去噪报告检测方法,可以提高聚类效果,降低聚类成本,特别是在大数据时代。其次,考虑到即使是信息公众号通常也会发布软文、广告投放等非新闻报道,传统的以头条和介绍为基础的新闻话题方式已不再适用于微信公众号。根据微文本排版的特点,提出了一种基于增强字体的主题演化方法。实验结果表明,该方法总体上优于传统方法。