算法 自动采集列表(基于KDDCup99的部分数据,本次数据挖掘网络入侵识别模型研究 )
优采云 发布时间: 2022-01-31 09:02算法 自动采集列表(基于KDDCup99的部分数据,本次数据挖掘网络入侵识别模型研究
)
基于随机森林算法的网络入侵自动识别模型一、模型应用
互联网的蓬勃发展给人们的工作和生活带来了极大的便利。然而,随着现代网络应用的普及,随之而来的网络不安全因素也给网络信息安全带来了严峻挑战。传统的网络安全技术已经难以应对这些日益严重的安全威胁,因此我们有必要开发专门的工具来规避这些不安全因素的攻击,而入侵检测技术可以作为我们非常重要的一项技术。
随着网络入侵的频繁发生,网络攻击的手段也呈现出多样性和隐蔽性的特点。当前网络和信息安全形势严峻。网络安全面临的主要威胁是:
KDDCup99网络入侵检测数据背景介绍:
1998 年,美国国防高级计划局 (DARPA) 在麻省理工学院林肯实验室开展了入侵检测评估项目。林肯实验室建立了模拟美国空军局域网的网络环境,采集了 9 周的 TCPdump 网络连接和系统审计数据,模拟了各种用户类型、各种网络流量和攻击方式,使其像一个真实的网络环境。这些 TCPdump采集 原创数据分为两部分:7 周的训练数据收录大约 5,000,000 条网络连接记录,其余 2 周的测试数据收录大约 2,000,000 条网络连接记录。
基于KDDCup99的部分数据,本次数据挖掘的建模目标如下:
1)诱导入侵的关键特征
2)建立入侵识别模型。
二、实现过程
KDDCup99网络入侵识别流程如图1所示,主要包括以下步骤:
使用KDDCUP99中的网络入侵检测包kddcup.data_10_percent,这是一个
kdd_data 数据包的 10% 采样(490 万条数据记录);
对样本数据进行探索分析,通过对41个固定特征属性的分析,发现前31个特征属性可以反映变化,因此连接记录的分析处理针对的是31个特征属性;
对样本数据进行预处理,包括数据清洗、缺失值处理和数据转换;
建立建模样本集;
建立KDDCUP99网络入侵识别模型;
进行模型评估;
模型优化。
本案例以模拟美国空军局域网网络环境记录的KDDCup99数据集为基础,重点介绍各种分类算法在数据挖掘中的应用。
三、核心技术四、您可以将此模型用于五、运行时环境
windows/linux/mac OS,64位操作系统,内存:8GB及以上,R3.5.1。
六、资源展示