汇总:大数据治理包括哪些内容合集
优采云 发布时间: 2022-11-22 14:28汇总:大数据治理包括哪些内容合集
数据治理包括什么
从技术实现的角度来看,数据治理包括
“
原因
“”
挑选
“”
居住
“”
管子
“”
利用
“
这五个步骤分别是业务和数据资源整理、数据采集
和清洗、数据库设计和存储、数据管理、
数据使用。
数据资源梳理:数据治理的第一步是从业务角度明确组织的数据资源环境和数据资源清单,包括组织架构、业务事项、信息系统、
和数据库、网页、文件和
蜜蜂
数据项资源以接口的形式存在,这一步输出的是分类后的数据资源列表。
数据采集
和清洗:通过视觉
ETL
工具(比如阿里的
数据X
,
Pentaho 数据集成
) 从源中提取数据
(提炼)
" />
, 转换
(转换)
,加载
(加载)
到目的地的过程就是把散乱的数据集中存储起来。
基础数据库和主题数据库建设:数据一般分为基础数据、业务主题数据和分析数据。基础数据一般是指核心实体数据,或者主数据,
例如智慧城市中的人口、法人、地理信息、信用、电子*敏*感*词*等数据。主体数据一般是指某个业务主体数据,如市场监督管理局食品监管局
管理、质量监督检验、企业综合监管等数据。分析数据是指基于业务主体数据综合分析得到的分析结果数据,如企业
综合评价、行业区域分布、高风险企业分布等。然后基础库和主题库的建设是在了解业务的基础上,本着易存储、易管理、易使用的原则
抽象的数据存储结构,说白了就是按照一定的原则设计数据库的表结构,然后根据数据资源列表设计数据的采集
和清洗流程,对干净的数据进行清洗
存储在数据库或数据仓库中。
元数据管理:元数据管理是对基础库和主题库中数据项属性的管理。同时将数据项的业务含义与数据项关联起来,业务人员也可以
能够理解数据库中数据字段的含义,而元数据就是后面提到的自动数据共享、数据交换和商业智能(
双
)基础知识。请注意,元数据
管理一般是指对基础库和学科库中的数据项属性(即核心数据资产)的管理,而数据资源盘点则是对来自各种数据源的数据项的管理。
血缘追踪:数据在业务场景中使用时,如果发现数据错误,数据治理团队需要快速定位数据源头,修复数据错误。然后数据治理团队需要了解业务
团队的数据来自哪个核心库,核心库的数据来自哪个数据源。我们的做法是建立元数据和数据资源清单的关联关系,业务团队
团队使用的数据项通过元数据的组合配置,从而建立数据使用场景与数据源的关系。
数据资源目录:数据资源目录的一般应用
针对数据共享场景,如政府部门之间的数据共享,数据资源目录基于业务场景和行业规范,同时依托元数据和图书馆基础专题。
自动化数据应用和使用。
质量管理:数据价值的成功发现必须依赖高质量的数据。只能使用准确、完整和一致的数据。因此,需要从多个维度对数据进行分析
质量,如:偏移量、非零检查、范围检查、规范性检查、重复性检查、关联检查、离群值检查、波动检查等。需要注意的是优秀
数据质量模型的设计必须依赖于对业务的深刻理解。也推荐使用大数据相关技术,保证检测性能,降低对业务系统的性能影响。
例如
Hadoop
,
" />
MapReduce
,
数据库
等待。
商业智能(
双
):数据治理的目的是为了使用。对于大型数据仓库,数据使用的场景和需求是多变的,可以使用
双
产品类别快
快速获取需要的数据,并分析形成报告,像派克数据是专业的
双
制造商。
数据共享与交换:数据共享包括组织内部和组织之间的数据共享,共享方式也分为数据库表、文件和
蜜蜂
界面共享有3种方式,库表共享更直接粗暴。
暴力,文件共享方法通过
ETL
该工具可以进行反向数据交换。我们推荐
蜜蜂
接口共享方法,在该方法中,中心可以
数据仓库保留数据所有权并通过传递数据使用权
蜜蜂
接口的形式已经转移。
蜜蜂
可以使用接口共享
蜜蜂
网关实现,常用功能是自动连接
端口生成、应用审核、限流、并发限制、多用户隔离、调用统计、调用审计、黑白名单、调用监控、质量监控等。
汇总:渗透测试前期之信息收集总结
信息采集
的意义
信息采集
在渗透测试的前期非常重要。俗话说,知己知彼,百战不殆。信息采集
是渗透测试成功的保证。只有掌握了足够多的目标网站或目标主机的信息,才能进行更好的渗透测试。
信息采集
方法可分为主动和被动两种。
主动信息采集
通过直接访问网站、在网站上执行操作、扫描网站等。这是一种网络流量通过目标服务器的信息采集
形式。
被动信息采集
基于开放的渠道,如搜索引擎等,在不直接与目标系统交互的情况下获取信息,尽量避免留下痕迹。
这两种方法各有优势。通过主动采集
信息,可以获取更多信息,但痕迹更明显,更容易被追查。被动信息采集
不会扫描特定的网站,所以一般来说,采集
到的信息会比较少,但你的行为不会被目标主机发现。因此,必须灵活运用不同的采集方式,保证信息采集的完整性。
网站信息采集
操作系统
服务器常用的操作系统基本只有两种:windows和linux,但是linux系统在企业服务器中占了大多数,常用的判断方法有以下三种
通过ping来判断,windows的TTL值一般是128,而Linux是64。所以TTL大于100的一般是Windows,TTL值几十的一般是Linux。但是通过TTL值来判断服务器类型并不是100%准确的。有些Windows服务器的TTL值为几十,有些服务器禁止ping。以这种方式检测
Nmap扫描,可以通过-O或-A参数扫描操作系统。好处是可以扫描具体的操作系统版本。缺点是扫描痕迹明显,容易被发现。
Windows 不区分大小写,而 Linux 区分大小写。这也可以作为判断操作系统的依据。我们可以在访问的时候尝试把路径部分改成大写,然后访问看看是否请求成功。
Web 服务/容器类型
网站常用的网络服务器包括:Apache、Nginx、Tomcat 和 IIS。知道了web服务器的类型之后,我们还需要检测web服务器的具体版本。比如Ngnix版本
脚本类型
网站常用脚本类型:php、Jsp、Asp、Aspx、python。
通过网站URL判断
使用google判断,site:xxx filetype:php
使用wappalyzer插件判断
数据库类型
常见的数据库类型
Mysql是瑞典MySQL AB公司开发的关系型数据库管理系统,目前属于Oracle旗下产品。MySQL 是最流行的关系数据库管理系统。就WEB应用而言,MySQL是最好的应用软件之一。大多数 MySQL 数据库都是 php 页面。默认端口为 3306
Sql Server是微软开发和推广的关系数据库管理系统(DBMS),是一个比较大的数据库。端口号为1433 数据库后缀名.mdf
Access的全称是Microsoft Office Access,是微软公司发布的关系型数据库管理系统。对于小型数据库,当数据库达到100M左右时性能会下降。数据库后缀名:.mdb一般是ASP网页文件的access数据库
Oracle也称为Oracle RDBMS,简称甲骨文。它是由甲骨文公司开发的关系数据库管理系统。常用于比较大的网站。默认端口为 1521
常见搭配:
ASP 和 ASPX:ACCESS、SQL Server + win
PHP: MySQL + win/linux, PostgreSQL + linux
JSP:甲骨文、MySQL + win/linux
内容管理系统识别
常见的CMS:dedecms(织梦)、Discuz、phpcms等。
敏感目录、后台
常见目录类型
后台目录:弱密码、万能密码、爆破
备份文件:获取数据库信息,甚至网站源代码
上传目录:截断、上传图片等。
mysql管理界面:弱密码、爆破、万能密码,进而获取数据库信息
安装页面:可以安装两次绕过
phpinfo:会暴露你配置的各种信息
编辑:fck、ke等
常用工具
网站Waf识别
Web应用防护系统(又名:网站应用级入侵防御系统。英文:Web Application Firewall,简称:WAF)。Web应用防火墙是一种旨在通过实施一系列HTTP/HTTPS安全策略来为Web应用提供保护的产品。
功能:
" />
防范常见类型的网络攻击,如:SQL注入、XSS跨站、CSRF、Web后门等。
防止各种自动化攻击,如:暴力破解、凭证库、批量注册、自动发帖等。
防范其他常见威胁,如:爬虫、0DAY攻击、代码分析、嗅探、数据篡改、未授权访问、敏感信息泄露、应用层DDOS、远程恶意收录
、盗链、未授权访问、扫描等。
鉴别方法:
域名信息采集
域名介绍
域名(英文:Domain Name),又称网络域,是由一串以点号分隔的名称组成的互联网上计算机或计算机组的名称。用于在数据传输过程中对计算机进行定位和识别(有时也指地理位置)。
由于IP地址不便记忆和不能显示地址组织的名称和性质的缺点,人们设计了域名,通过域名系统(DNS,Domain Name系统),使人们更方便地上网,而无需记住机器可以直接读取的IP地址字符串。
域名分类
顶级域名:
政府域名:.gov
企业域名:.com
教育域名:.edu
二级域名:**
三级域名:**
谁是
whois是一种用于查询域名IP和所有者信息的传输协议。是用来查询域名是否被注册以及注册域名的详细信息(如:域名所有者、域名注册商)的数据库。一般来说,对于中小型网站来说,域名的注册人都是站长。通过域名Whois服务器查询,可以查询域名所有者的*敏*感*词*,以及注册和过期时间。
Whois 协议。基本内容是先与服务器的TCP 43端口建立连接,发送查询关键字并加回车换行,然后从服务器接收查询结果。
whois查询方法:
备案信息查询方式
ICP备案介绍:Internet Content Provider网络内容提供商。国家对经营性互联网信息服务实行许可制度;非经营性互联网信息服务备案制度。
查询方式:
Whois反向查询(注册人/邮箱反向查询)
先通过whois获取注册人和邮箱,再通过注册人和邮箱查看域名。
缺点:很多公司都是DNS解析运营商注册的,查到的信息是运营商注册的网站信息,不是个人和公司。
子域集合
子域名是指二级域名,是顶级域名(一级域名)的下一级。
例如:and是子域,while是顶级域名.com的子域。
搜索引擎:谷歌黑客
地点:
第三方网页接口查询
网络空间安全搜索引擎
佛法:
域=“”
变焦眼:
地点:””
初段:
主机名:
ssl证书查询
工具扫描
ip信息采集
判断cdn
CDN 是内容分发网络。CDN是建立在互联网上的内容分发网络。依托部署在各地的边缘服务器,通过中心平台的负载均衡、内容分发、调度等功能模块,用户可以就近获取所需内容,减少网络拥塞,提高用户接入。响应速度和命中率。
方法一:
" />
使用各种多区域ping服务检查对应的IP地址是否唯一。如果没有,则可能使用了 CDN。多区域Ping网站包括:
方法二:
使用nslookup检测,原理同上,如果返回的域名解析对应多个IP地址,多半是使用了CDN
绕过cdn
国外访问
因为CDN的设置是需要成本的,所以很多网站在设置CDN的时候都没有收录
国外访问,所以可以通过外网访问来绕过。
查询子域名的IP
CDN流量收费高,所以很多站长可能只做流量大的主站或者子站CDN,很多小站和子站都和主站在同一台服务器或者同一个C段。这时候,可以通过查询子域名对应的IP,找到网站的真实IP
php信息文件
查看 SERVER_ADDR
Mx 记录邮件服务
网络空间搜索引擎
443.https.tls.certificate.parsed.extensions.subject_alt_name.dns_names:
通过fofa查询网站证书序列号,十六进制转十进制
证书=“76787”
查询历史 DNS 记录
IP反查域名
如果渗透目标是虚拟主机,那么通过IP反向搜索得到的域名信息就非常有价值,因为一台物理服务器上可能运行着多个虚拟主机。这些虚拟主机拥有不同的域名,但通常共享一个IP地址。如果知道有哪些网站共用这台服务器,就有可能通过其他网站在这台服务器上的漏洞,获得服务器的控制权,进而绕道而行,获得渗透目标的权限。这种技术也称为“旁注”。
C段活体宿主检测
地图
nmap -sP -sP 192.168.1.*
通过物联网搜索引擎搜索c段ip信息
端口信息扫描
在互联网上,每台主机通过TCP/IP协议发送和接收数据包,每个数据包根据其目的主机的IP地址在互联网中进行路由,从而使数据包成功传输到目标主机。
协议端口
根据提供的服务类型不同,端口可分为以下两种类型:
TCP端口:CP是一种面向连接的可靠传输层通信协议。
UDP端口:UDP是一种无连接、不可靠的传输层协议。
TCP协议和UDP协议是独立的,所以它们各自的端口号也是相互独立的。
端口类型
知名端口:知名端口号,范围:0-1023,如:80端口为WWW服务。
动态端口:一般不是固定分配某个服务,范围:49152-65535
注册端口:范围1024-49151,分配给用户进程或程序。
渗透公共端口
FTP-21
FTP:文件传输协议,使用TCP端口20、21、20传输数据,21传输控制信息。
FTP基础爆破:owasp的Bruter,msf中的hydra和ftp爆破模块。
FTP匿名访问:用户名:anonymous 密码:空或任意邮箱
vsftpd后门:vsftpd2到2.3.4存在后门漏洞,通过后门可以获得root权限。
嗅探:ftp采用明文传输,Cain用于穿透。(不过嗅探需要在局域网内,需要欺骗或*敏*感*词*网关)
FTP 远程代码溢出。
ftp跳转攻击。
SSH-22
SSH:(secure shell)是目前较为可靠的协议,可为远程登录会话和其他网络服务提供安全保护。
对于弱口令,可以使用工具hydra和msf中的ssh爆破模块。
SSH后门
openssh 用户枚举 CVE-2018-15473