最新版:天若论文写作助手 V1.2 破解版(天若论文写作助手 V1.2 破解版怎么用)
优采云 发布时间: 2022-11-25 13:24最新版:天若论文写作助手 V1.2 破解版(天若论文写作助手 V1.2 破解版怎么用)
" />
关于天若论文写作助手V1.2破解版,很多人不知道天若论文写作助手V1.2破解版怎么用,小新为您解答以上问题,一起来看看吧!
天若论文写作助手破解版是一款利用百度翻译、谷歌翻译、英译汉、汉译英等多种形式进行伪原创操作的工具。可以瞬间对一个文件夹中的所有文本文件进行伪原创处理!专为Google、百度、雅虎、ask等大型搜索引擎设计,伪原创工具生成的文章会更好的被搜索引擎收录和收录!欢迎大家下载使用!
" />
这篇文章就分享到这里,希望对大家有所帮助。
官方数据:2015年《大数据》高被引论文Top10文章No
李涛,曾春秋,周武波,等。大数据时代的数据挖掘——应用视角下的大数据挖掘[J]. 大数据, 2015041.
LI T, ZENG CQ, ZHOU WB, et al. 大数据时代的数据挖掘:应用视角[J]. 大数据研究,2015041.
李涛 1,2,曾春秋 1,2,周伍白 1,2,周奇峰 3,郑力 1,2
1. 南京邮电大学计算机学院, 南京 210023; 2. 佛罗里达国际大学, 迈阿密 33199; 3. 厦门大学自动化系 厦门 361005
摘要:介绍了大数据时代数据挖掘的特点、任务和难点,分析了大数据挖掘的核心架构,提出了大数据的核心和本质,即四要素的有机结合:应用、算法、数据和平台。在此基础上,介绍了我们团队设计的大数据挖掘系统FIU-Miner。该系统是一个用户友好的数据挖掘系统平台,支持分布式环境下的高效计算和快速算法集成,使数据分析人员能够快速有效地执行各种数据挖掘任务。最后介绍了三个典型的基于FIU-Miner的成功应用案例:高端制造数据挖掘、空间数据挖掘和商业智能数据挖掘。
关键词:大数据;数据挖掘; FIU-矿工;高端制造;空间数据挖掘;商业智能
doi: 10.11959/j.issn.2096-0271.2015041
大数据时代的数据挖掘:应用视角
李涛1,2,曾春秋1,2,周伍白1,2,周奇峰3,郑丽1,2
1. 南京邮电大学计算机科学与技术学院, 南京 210023
2. 佛罗里达国际大学计算机学院, 美国迈阿密 33199
3. 厦门大学自动化系, 厦门 361005
摘要:介绍了大数据时代数据挖掘的技术特点、任务和难点。分析了*敏*感*词*数据挖掘的系统架构。然后,介绍了开发的FIU-Miner,它是一个快速、集成、用户友好的数据挖掘系统。FIU-Miner支持用户友好的快速数据挖掘任务配置,灵活的跨语言程序集成,以及异构环境中有效的资源管理。最后介绍了 FIU 数据挖掘、空间数据挖掘和商业智能数据挖掘的三个成功的真实世界 Miu-acter 应用,以证明其功效和有效性。
关键词: 大数据, 数据挖掘, FIU-Miner, 先进制造, 空间数据挖掘, 商业智能
1 对大数据的理解和认识
大数据一词常被用来描述和指代信息爆炸时代产生的海量信息。研究大数据的意义在于发现和理解信息内容以及信息与信息之间的联系。研究大数据,首先要弄清楚和理解大数据的特点和基本概念,然后再认识和理解大数据。
1.1 大数据“4V+4V”的特点
从数据表征的角度,业界普遍认为大数据具有以下“4V”特征[1]。
● volume(大量):数据量巨大,从TB级到PB级。
● variety(多样性):有各种类型的数据,例如网络日志、视频、图片和地理位置信息。
● velocity(高速):处理速度快,分析实时,这也是与传统数据挖掘技术的本质区别。
● 价值:价值密度低,但有效价值高。低密度价值数据的合理利用和正确准确的分析将带来巨大的商业和社会价值。
上述“4V”特征描述了大数据与过去部分采样的“小数据”的主要区别。然而,实践是实现大数据最终价值的唯一途径。从实际应用和大数据处理的复杂性来看,大数据还具有以下新的“4V”特征。
● 变量:数据的结构和含义可能会在不同的场景和不同的研究目标下发生变化。因此,在实际研究中应考虑具体的情境场景。
● 真实性:获取真实可靠的数据是保证分析结果准确有效的前提。只有真实准确的数据才能得出真正有意义的结果。
● 波动性:由于数据本身的噪声和分析过程的不规律性,不同的算法或不同的分析过程和方法会导致分析结果不稳定。
● 可视化(visualization):在大数据环境下,数据可视化可以更直观地解释数据的含义,帮助理解数据,解释结果。
1.2 对大数据的理解
*敏*感*词*不同的专家学者对大数据有着不同的理解。中国科学院计算技术研究所李国杰院士认为,大数据是“海量数据”加“复杂数据类型”[2]。维基百科对大数据的定义是:“大数据由于其规模、复杂性和实时性,使得在一定时期内无法用常规软件工具获取、存储、搜索、共享、分析和可视化。时间.数据集”。Gartner咨询公司给出的定义是:“大数据是一种海量的、高增长的、多样化的信息资产,需要通过新的处理模式才能具有更强的决策力、洞察力发现力和流程优化能力。”
结合上述大数据的“8V”特征,笔者认为大数据的核心和本质是应用、算法、数据和平台的有机结合,如图1所示。大数据是应用驱动的,大数据来源于实践,海量数据是在实际应用中产生的。
图 1 大数据架构
数据挖掘源于实践中的实际应用需求,以具体应用数据为驱动,以算法、工具和平台为支撑,最终将发现的知识和信息运用到实践中,从而提供量化的、合理的、可行的、有能力的信息。价值。此外,挖掘大数据中收录
的有用信息,需要设计和开发相应的数据挖掘和机器学习算法。算法的设计和开发要以具体的应用数据为驱动,同时在实际问题中得到应用和验证,而算法的实现和应用则需要高效的处理平台。一个高效的处理平台需要对海量数据进行有效的分析,整合多源数据,同时大力支持数据挖掘算法和数据可视化的执行,规范数据分析过程。总而言之,应用、算法、数据、平台相结合的思想,是对上述大数据的综合和浓缩理解,体现了大数据的本质和核心。基于该架构的大数据挖掘可以有效处理大数据的复杂特性,挖掘大数据的价值。
在此框架下,本文从应用的角度探讨了大数据时代数据挖掘的机遇与挑战,介绍了课题组开发的大数据挖掘平台FIU-Miner及高端制造业数据挖掘,空间数据挖掘和商业智能的三个大型复杂数据挖掘案例。
2 大数据时代的数据挖掘
2.1 数据挖掘
大数据时代,数据的产生和采集
是基础,数据挖掘是关键。数据挖掘是大数据中最关键、最有价值的工作。通常,数据挖掘或知识发现通常是指从大量数据中挖掘隐藏的、以前未知但可能有用的信息和模式的工程和系统过程。数据挖掘可以概括为以下四个特点[3]。
(1)适用性:数据挖掘是理论算法与实际应用的完美结合。数据挖掘来源于实际生产生活中的应用需求。挖掘的数据来自特定的应用程序。同时,必须将通过数据挖掘发现的知识应用到实践中,以辅助实际决策。因此,数据挖掘来源于应用实践,也服务于应用实践。
(2)工程:数据挖掘是一个由多个步骤组成的工程过程。数据挖掘的应用特点决定了数据挖掘不仅仅是算法分析和应用,而是包括数据准备和管理、数据预处理和转换、挖掘算法开发和应用、结果展示和验证、知识积累和使用的完整过程。. 而且,在实际应用中,典型的数据挖掘过程仍然是一个交互循环的过程。
(3) 集合:数据挖掘是各种函数的集合。常用的数据挖掘功能包括数据探索分析、关联规则挖掘、时间序列模式挖掘、分类预测、聚类分析、异常检测、数据可视化和链接分析等,一个具体的应用案例往往涉及多个不同的功能。不同的功能通常有不同的理论和技术基础,每个功能都有不同的算法支持。
(4) 交叉性:数据挖掘是一门交叉学科,它利用了统计分析、模式识别、机器学习、人工智能、信息检索和数据库等许多不同领域的研究成果和学术思想。同时,随机算法、信息论、可视化、分布式计算和优化等其他领域也对数据挖掘的发展起到了重要作用。数据挖掘与这些相关领域的区别可以用前面提到的数据挖掘的3个特点来概括,最重要的是它更侧重于应用。
具体来说,实际应用的需要是数据挖掘领域提出和发展的许多方法的根源。从最初的客户交易数据分析(market basket analysis)、多媒体数据挖掘(multimedia data mining)、隐私保护数据挖掘(privacy-preserving data mining)到文本数据挖掘(text mining)和Web挖掘(Web mining),社交媒体挖掘(social media mining)的所有方式都是由应用程序驱动的。工程和采集决定了数据挖掘研究内容和方向的广泛性。其中工程使得整个研究过程中的不同步骤都属于数据挖掘的研究范畴。集合使数据挖掘具有许多不同的功能,而如何将多种功能联系起来、组合起来,在一定程度上影响着数据挖掘研究方法的发展。例如,在 20 世纪 90 年代中期,数据挖掘研究主要集中在关联规则和时间序列模式的挖掘上。到20世纪90年代末,研究人员开始研究基于关联规则和时间序列模式的分类算法(如基于关联的分类),将两种不同的数据挖掘功能有机地结合起来。21世纪初,一个研究热点是半监督学习(semi-supervised learning)和半监督聚类(semi-supervised clustering),它们同样有机地结合了分类和聚类两种功能。近年来的一些其他研究方向,如子空间聚类(特征提取和聚类的结合)和图分类(图挖掘和分类的结合)也将多种功能联系起来。最后,交叉性导致研究思路和方法设计的多样化。
2.2 从数据挖掘应用的角度看大数据
大数据是一种现象,核心是挖掘数据的价值。结合数据挖掘的各种特点,特别是其适用性,从应用业务的角度提出以下两点对大数据的理解[3]。
首先,大数据是“头号工程”。在企业中,大数据通常涉及多个业务部门,业务逻辑复杂。一方面,大数据的采集与整合需要业务部门的配合与沟通,需要业务人员的大力参与。这些都需要企业决策者的重视和认可,并提供必要的资源配置和支持。另一方面,数据挖掘结果的验证和应用,更离不开相关人员的决策。数据挖掘的结果大多是相关性而非因果性,这些结果也可能存在不确定性。另外,有时数据挖掘的结果与企业运营的常识并不一致,甚至矛盾。因此,如何对待这些可能存在的不确定性和反常识的分析结论,充分利用数据挖掘的结果,必然离不开决策者的远见。
其次,大数据需要数据导入、整合和预处理。当面对来自不同数据源的大量复杂数据时,具体业务逻辑的复杂性和数据之间的琐碎关系直接导致企业的业务流程和数据流程难以理解。因此,企业在实施大数据时可能不知道挖掘和发现什么,对数据挖掘能帮助企业做什么没有一个直观清晰的认识。因此,在很多情况下,不可能提前计划和准备数据。这样,在具体的数据挖掘中,就需要在数据导入、集成和预处理方*敏*感*词*有很大的灵活性。
2.3 大数据时代应用数据挖掘的挑战
大数据时代的到来导致数据的规模和复杂性呈爆炸式增长,促使不同应用领域的数据分析师使用数据挖掘技术来分析数据。在医疗健康、高端制造、金融等应用领域,一个典型的数据挖掘任务往往需要复杂的子任务配置,集成多种不同类型的挖掘算法,并在分布式计算环境中高效运行。因此,大数据时代数据挖掘应用的一个紧迫任务是开发和建立计算平台和工具,以支持应用领域的数据分析师有效地执行数据分析任务。
现有的数据挖掘工具(如Weka[4]、SPSS和SQL Server等)为用户分析提供了友好的界面。但是,这些工具并不适合*敏*感*词*数据分析。当同时使用这些工具时,用户很难添加新的算法程序。流行的数据挖掘算法库(如 Mahout[5]、MLC++ 和 MILK)提供了大量的数据挖掘算法。然而,这些算法库需要高级编程技能才能在特定的数据挖掘任务中执行任务配置和算法集成。最近,一些集成数据挖掘产品(如 Radoop[6] 和 BC-PDM[7])提供了友好的用户界面来快速配置数据挖掘任务。但是,这些产品都是基于Hadoop框架,对非Hadoop算法程序的支持非常有限。
为了解决现有大数据挖掘工具和产品的局限性,开发了一个新的平台——FIU-Miner(一种快速、集成、用户友好的分布式环境数据挖掘系统[8]),它是一个用户友好的数据挖掘系统,支持分布式环境下的高效计算和快速集成,该平台支持数据分析师快速有效地执行数据挖掘任务。
" />
3 大数据挖掘系统FIU-Miner研究设计
3.1 FIU-Miner平台介绍
与现有的数据挖掘平台相比,FIU-Miner提供了一组新的功能,可以帮助数据分析人员方便有效地进行各种复杂的数据挖掘任务。
具体而言,FIU-Miner具有以下突出优势。
(1) 人性化、人性化、快速的数据挖掘任务配置:基于“软件即服务”模型,FIU-Miner隐藏了与数据分析任务无关的低端细节。通过FIU-Miner提供的人性化的用户界面,用户无需编写任何代码,直接将现有算法组装成工作流即可轻松完成复杂数据挖掘问题的任务配置。
(2) 灵活的多语言程序集成:FIU-Miner允许用户将最先进的数据挖掘算法直接导入系统算法库,从而扩展和管理分析工具的集合。同时,由于FIU-Miner可以在合适的运行环境下将任务正确分配给计算节点,因此这些导入的算法没有语言限制。
(3)异构环境下有效的资源管理:FIU-Miner支持在异构计算环境(包括图形工作站、单机和服务器等)中运行数据挖掘任务。FIU-Miner综合考虑各种因素(包括算法实现、服务器负载均衡和数据定位)来优化计算资源的利用率。
3.2 FIU-Miner系统架构
FIU-Miner的系统架构如图2所示,系统分为4层:用户界面(user interface layer)、任务和系统管理(task and system management layer)、抽象资源(abstract resource layer)和异构物理资源(异构物理资源层)。这种分层架构充分考虑了海量数据的分布式存储、不同数据挖掘算法的集成、各种分析任务的配置以及系统与用户的交互。
图2 FIU-Miner系统架构
3.2.1 用户界面层
为了最大化系统的兼容性,用户界面层是一个完全用HTML 5开发的Web应用程序。如图3所示,用户界面层有以下三个功能模块。
(a) 任务配置与执行
(b) 程序注册模块
(c) 系统监控模块
图3 用户界面层功能模块
(1) Task configuration and execution(任务配置与执行)
该模块支持面向工作流的数据挖掘任务配置。数据挖掘任务的工作流程可以表示为有向图,图中的节点代表特定的算法,图的边代表算法中的数据依赖关系。在 FIU-Miner 中,无需编程即可通过图形用户界面快速配置工作流程。另外,用户可以设置数据挖掘任务的执行计划,包括程序的定时、周期、顺序等执行方式。
(2) 程序注册
该模块允许用户方便地导入外部数据挖掘算法,丰富FIU-Miner的算法库。如需导入外部程序,用户需要上传可执行文件并提供详细的描述信息,包括程序的功能说明、所需运行环境、程序及相关数据、参数说明等。导入的程序可以用任何语言编写,只要后端服务器能够支持它所需要的运行环境即可。FIU-Miner目前支持Java(包括Hadoop环境)、Shell、Python、C/C++等语言编写的程序,所以实现了几乎所有主流的数据挖掘算法,比如基于Weka、Mahout的数据挖掘和机器学习, 牛奶等 算法库中的程序可以方便地导入FIU-Miner。用户也可以将自己的算法导入系统。
(3)系统监控(system monitoring)
该模块实时监控FIU-Miner的资源利用率,动态跟踪系统中提交任务的运行状态。注意该模块只展示抽象资源(逻辑存储和计算资源包括数据库、文件系统、计算单元等),使得底层物理资源对用户透明。
3.2.2 任务和系统管理
任务与系统管理层包括任务管理和系统管理两个主要功能模块。
(1) 任务管理
FIU-Miner 允许用户动态配置数据挖掘任务以满足他们的分析需要。用户可以选择注册在算法库中的算法作为基础模块构建工作流。工作流集成器(workflow integrator)负责工作流任务的集成和验证,同时发现和报告无效流程。一旦集成和配置了新的数据挖掘任务,它将自动添加到任务库中,并可以随时安排运行。作业调度器负责分配计算资源和优化运行时间。FIU-Miner 中的调度比较复杂。一方面,FIU-Miner支持以不同编程语言实现的程序运行在异构计算环境中。任务中的不同程序可能有不同的运行环境要求。因此,简单地将任务分配给空闲的计算单元并不一定可行。另一方面,将作业拆分为不同的步骤并让每个步骤在不同的计算单元上运行可能会增加 I/O 成本。如果考虑多用户多任务的情况,FIU-Miner 中的调度会变得更加困难和复杂。为了解决上述问题,在实现FIU-Miner的调度时,综合考虑了以下因素:给定任务每一步的运行环境要求;每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。简单地将任务分配给空闲的计算单元不一定可行。另一方面,将作业拆分为不同的步骤并让每个步骤在不同的计算单元上运行可能会增加 I/O 成本。如果考虑多用户多任务的情况,FIU-Miner 中的调度会变得更加困难和复杂。为了解决上述问题,在实现FIU-Miner的调度时,综合考虑了以下因素:给定任务每一步的运行环境要求;每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。简单地将任务分配给空闲的计算单元不一定可行。另一方面,将作业拆分为不同的步骤并让每个步骤在不同的计算单元上运行可能会增加 I/O 成本。如果考虑多用户多任务的情况,FIU-Miner 中的调度会变得更加困难和复杂。为了解决上述问题,在实现FIU-Miner的调度时,综合考虑了以下因素:给定任务每一步的运行环境要求;每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。如果考虑多用户多任务的情况,FIU-Miner 中的调度会变得更加困难和复杂。为了解决上述问题,在实现FIU-Miner的调度时,综合考虑了以下因素:给定任务每一步的运行环境要求;每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。如果考虑多用户多任务的情况,FIU-Miner 中的调度会变得更加困难和复杂。为了解决上述问题,在实现FIU-Miner的调度时,综合考虑了以下因素:给定任务每一步的运行环境要求;每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。每个计算单元支持的操作环境;每个计算节点的当前运行状态;输入数据的大小。
(2) 系统管理
作业管理器跟踪正在执行的作业的运行状态。用户接收作业的实时状态。除了作业监控,FIU-Miner 还跟踪计算单元和相关计算资源的状态。资源*敏*感*词*(resource monitor)监控计算单元,提供作业调度器的运行状态,帮助调度决策。资源管理器管理所有可用的计算单元。FIU-Miner 的一个独特优势是它不需要手动注册可用的物理资源。一旦计算单元部署到物理服务器上,它会将服务器信息发送给资源管理器,并自动在FIU-Miner中注册服务器。
3.2.3 抽象资源层
抽象资源层包括存储和计算资源。存储资源基于物理设备,包括传统数据库、本地文件系统和分布式文件系统(如HDFS)。计算单元是逻辑计算资源。平台的计算能力取决于计算单元的数量。通过扩展配置的计算单元数量,有效支撑上层的数据挖掘任务。
在 FIU-Miner 中,物理服务器的计算能力是通过计算单元的数量和调度的数据挖掘任务来量化的。这种机制是系统虚拟化的简化版本,可以最大限度地利用计算资源。为了有效地管理计算资源,每个计算单元都收录
一个详细的规范配置文件(信息包括计算能力、支持的运行环境、运行状态等)。物理服务器的存储(包括可用的数据库、HDFS和本地文件系统)由服务器上布置的计算单元共享。
3.2.4 异构物理资源层
异构物理资源层也称为物理资源层,主要包括底层物理设备。这些物理设备可以有效地支持数据的存储和扩展。
3.3 FIU-Miner系统亮点
FIU-Miner建立在分布式异构环境之上,大大降低了不同物理环境带来的数据分析任务的复杂性,充分利用分布式计算能力提高数据分析效率。此外,FIU-Miner的计算资源可以动态增减,使其具备根据具体分析任务数量在线调整计算物理资源的能力。最后,友好的用户界面为基于FIU-Miner构建不同的大数据挖掘应用程序提供了极大的便利。
4 FIU-Miner应用实例一:高端制造业
4.1 高端制造大数据挖掘任务
制造是指将原材料*敏*感*词*加工成成品的工业生产过程。高端制造业是指制造业中技术含量高、附加值高、竞争力强的新兴产业。典型的高端制造业[9]包括电子半导体生产、精密仪器制造、生物制药等。这些制造领域往往涉及严谨的工程设计、复杂的装配线、大量受控的加工设备和工艺参数、精确的过程控制和严格的材料规格。产量和质量在很大程度上取决于过程控制和优化决策。所以,
随着技术、装备和信息技术的不断发展,现代制造业(尤其是高端制造业)产生并积累了大量的生产过程历史数据。这些数据收录
对生产和管理具有高价值的知识和信息。高端制造企业可以利用这些技术更好地采集和管理生产过程数据,同时使企业积累的相关数据更加丰富、完整和准确。
这些采集的数据来源于实际生产,与生产设计、机械设备、原材料、环境条件、生产过程等生产要素信息高度相关。通常,工程师很难通过人工分析来检测参数与影响质量的重要生产因素之间的关联模式。然而,如何有效利用这些数据优化生产流程,提高生产效率成为企业关注的焦点。因此,制造企业需要一种高效、可靠的分析方法和工具,挖掘隐藏在海量数据中的有用的、深层次的知识和信息,从而提升高端制造的控制、优化、调度、管理等各个层次。分析和解决问题的能力。幸运的是,利用数据挖掘可以有效地分析这些数据,并将其转化为有价值的生产知识,从而在实际应用中提高产品质量、产品性能和生产效率,最终达到提高企业在行业中竞争力的目的. 因此,数据挖掘技术是解决制造业海量信息数据处理的关键技术之一。并最终达到提高企业在行业内竞争力的目的。因此,数据挖掘技术是解决制造业海量信息数据处理的关键技术之一。并最终达到提高企业在行业内竞争力的目的。因此,数据挖掘技术是解决制造业海量信息数据处理的关键技术之一。
4.2 高端制造大数据挖掘的挑战
高端制造业的数据挖掘面临诸多挑战,例如:如何对海量数据进行有效分析,如何保证数据分析的效率和分析结果的准确性?在实际应用中,依靠传统的信息系统对海量数据进行查询和报警,或者单纯依靠专家经验分析和发现潜在有价值的信息,已经变得不现实。因此,企业需要借助数据分析技术、工具或平台,从大量复杂的原创
生产数据中智能发现新的规律和知识,作为决策依据,改进生产流程,系统地提高生产效率。
4.3 具体案例
FIU-Miner已成功应用于四川鸿欧显示*敏*感*词*,作为等离子屏幕制造过程的数据分析平台[3,10]。
4.3.1 等离子显示器制造
等离子显示面板(PDP)是利用气体等离子体效应发射紫外线,从而激发三基色发光体独立发光,显示不同颜色和控制亮度的高端图像显示器。具有亮度高、色彩多、面积大、视角广、图像清晰等诸多优点,是大面积显示需求(如家庭影院、电子广告墙)的首选。
" />
四川鸿欧显示器件*敏*感*词*是国内最大的等离子生产企业。它每天生产超过 10,000 个等离子显示面板。其生产线的部分指标包括[10]:主要工序20道,小工序151道;系列设备1000余台套;工艺设备共279台,设备种类83种;2225个物流单元,总长度6000米;产品制造时间约76小时;单个产品涉及11700多个工艺设备参数。
具体来说,在生产实践中,技术人员关注的是如何提高产品的成品率。为了实现这一目标,需要回答以下问题:哪些是关键工艺参数(它们对产品的良率有重大影响),参数值的变化将如何影响产品的良率,哪些是有效保证工艺参数公式等的高成品率。从PDP的数据特点来看,每天的生产数据存储量在10GB以上,每月有300-5亿条制造工艺记录,具有以下特点:海量大数据,无论是数量、维度还是数据生成速度。在生产工艺复杂、设备参数众多、数据量大的背景下,人为分析PDP生产过程以达到提高生产质量的效果几乎是不可能的。因此,迫切需要研究基于等离子显示器制造工艺的自动化工艺和产品优化工具,以提高对制造工艺参数和产品质量的控制能力。
4.3.2 基于FIU-Miner的解决方案
在过去的几年里,笔者的研究团队一直与四川鸿欧显示器件*敏*感*词*的技术人员和工程师紧密合作,利用数据挖掘来提高等离子屏的生产良率。在本次合作过程中,明确了以下两个主要的分析难点,并提出了相应的基于FIU-Miner的解决方案。
● 7×24小时的自动化生产模式和新的数据采集工具的使用导致数据量急剧增加,这需要强大的数据分析能力来支撑。
● 大量的过程控制参数导致数据的高维性,对数据分析的效率和分析结果的准确性提出了更高的要求。生产数据分析是生产工作流程的认知过程。这个过程本身就是一个探索、分析和理解数据的渐进迭代过程。因此,一个实用的系统应该提供一个集成的、高效的分析平台来支持这个过程。
笔者课题组在FIU-Miner的基础上,开发了离子屏制造过程数据挖掘系统(PDP-Miner)[10],解决PDP数据分析问题。PDP-Miner的架构如图4所示,具体是在FIU-Miner的基础上增加了一个数据分析层。
图4 PDP-Miner系统架构
数据分析层为具体的分析任务提供用户执行接口。以等离子屏数据挖掘系统为例,数据分析任务主要包括数据立方体、比较分析、回归分析、参数选择、参数公式、运行平台、结果展示和报表管理。
其中,数据立方体使分析师能够对数据进行宏观的了解和快速的预览。数据立方体子系统可以通过OLAP技术建立数据立方体,帮助分析人员粗略掌握数据的特征。通过选择维度和建立度量来分析数据集。通过数据立方体操作(下钻、上卷等)实现对数据的多粒度、多角度的理解。
子系统对比分析可以快速发现敏感参数和验证重要参数,因此在PDP生产系统中尤为重要。通过对比不同时期参数的统计特征,可以有效发现异常参数值,从而定位敏感设备或数据集。
数据分析子系统主要负责集成数据挖掘算法,提供业务操作接口。由于系统面向非专业领域的运营商,专注于具体的分析服务,将数据挖掘算法合理封装到各项服务中,对运营商透明。当前的挖掘算法主要支持回归分析、参数选择和参数制定等任务。
分析报告系统根据业务分析结果生成分析报告。这些分析报告可以直接为决策者提供决策依据。同时,报告系统也为领域专家提供了采集
反馈的接口。领域专家知识的引入对于优化模型和改进算法具有重要的指导意义。
图5展示了两种具体的PDP挖掘的工作流程。第一个工作流程(工作流程1)综合多种特征选择方法来选择影响PDP生产的重要工艺参数,然后使用回归分析建立这些参数与产品质量之间的关系。第二个工作流程(工作流程2)是使用频繁模式分析来挖掘重要工艺参数的相关性,从而生成可能的参数配方。图 6 显示了工作流配置界面。
图 5 PDP-Miner 工作流程
图6 PDP-Miner工作流程配置界面
使用等离子屏制造过程数据挖掘系统,大大降低了对前端用户的要求,让操作人员能够专注于快速发现和解决问题。
通过技术人员对数据挖掘研究成果和平台的有效应用,提高了制造过程中分析和解决问题的效率(见表1),PDP屏生产线的综合良品率和生产效率得到了迅速的改善。推动。一方面,大数据数据挖掘技术首次应用于显示器件制造行业,实现从传统的离散实验设计方法到数据挖掘模型的控制制造工艺参数的动态在线分析处理方法,降低成本的制造过程质量控制。测试成本。另一方面,通过数据挖掘平台,建立了等离子屏制造过程单道工序或全过程参数控制的主要数据挖掘分析模型,数据挖掘结果的有效应用促进了等离子屏的制造良率和生产效率。改进。最后,利用平台挖掘,方便快捷地指导技术人员进行参数控制的常态化螺旋改进。在多年的成果应用中,促进了PDP良品率和产能的快速提升,给公司带来了巨大的生产经济效益。PDP-Miner实际应用的主界面如图7所示。系统的功能模块包括数据探索(对比分析、数据立方体)、数据分析(运营平台、参数选择、回归分析、判别分析)、结果管理(可视化、结果列表和反馈采集
)。需要指出的是,等离子显示器制造挖矿平台可以方便地移植到液晶面板、OLED面板等其他平板显示领域,具备向整个平板行业推广的基础。
表1 PDP-Miner数据挖掘技术与传统数据挖掘技术的比较
图7 PDP-Miner实际应用主界面
4.4 应用亮点回顾
FIU-Miner应用于高端制造业的实际案例,全球率先将数据挖掘技术应用于显示器件制造业,构建了制造过程单工序/全工序数据挖掘分析模型为四川鸿欧显示器件*敏*感*词*开发了基于数据挖掘的PDP-Miner平台,有效提高了生产效率和产品质量。公司应用PDP-Miner平台后,产品的综合良品率得到大幅提升,同时生产效率的提升也带来了巨大的经济效益。该研究获得2013年度“中国制造业IT新兴技术应用最佳实践奖”。
参考:
[1] 闫晓峰,张德新.大数据研究[J].计算机技术与发展, 2013, 23(4): 168~172.
闫晓峰, 张德新. 大数据研究[J]. 计算机技术与发展, 2013, 23(4): 168~172.
[2] 李国杰.对大数据的认识[J].大数据, 2015001.
李国军. 对大数据的进一步认识[J]. 大数据研究, 2015001.
[3] 李涛.数据挖掘应用与实践:大数据时代案例分析[D]. 厦门:厦门大学出版社,2013.
LI T. 理论与实践相结合的数据挖掘[D]。厦门:厦门出版社,2013.
[4] HALL M、FRANK E、HOLMES G 等。Weka 数据挖掘软件:更新[J]. SIGKDD 探索, 2009, 11(1): 10 ~18.
[5] OWEN S、ANIL R、DUNNING T 等。Mahout 实战[J]. 庇护岛:曼宁出版社,2011 年。
[6] PREKOPCSAK Z、MAKRAI G、HENK T 等。Radoop: analysis big data with rapid mine rand hadoop[C]//Rapid Miner Community Meeting and Conference 论文集,都柏林,爱尔兰,2011。
[7] 于丽, 郑健, 吴斌, 等.Bc-pdm: 基于云计算的数据挖掘、社交网络分析和文本挖掘系统[C]// 第十八届 ACM SIGKDD 知识发现与数据挖掘国际会议论文集 (KDD'12), 北京, 中国, 2012.
[8] 曾长庆, 蒋玉霞, 郑丽, 等.Fiu-Miner: a fast, integrated, and user-friendly system for data mining in distributed environment[C]//第 19 届 ACM SIGKDD 知识发现与数据挖掘国际会议论文集 (KDD'13),芝加哥,伊利诺伊州,美国, 2013: 1506~1509.
[9] LEI D, HITT MA, GOLDHAR J D. 先进制造技术:组织设计与战略灵活性[J]. 组织研究, 1996, 17(3): 501~523.
[10] 郑丽, 曾长庆, 李丽, 等.应用数据挖掘技术解决先进制造中的关键过程优化需求[C]//第20届ACM SIGKDD知识发现与数据挖掘国际会议论文集(KDD'14),美国纽约,2014:1739~1748。
[11] 张敏杰, 王海波, 陆毅, 等.TerraFly GeoCloud:在线空间数据分析与可视化系统[J]. ACM 智能系统和技术交易 (TIST),2015 年,6(3)。
[12] 曾长庆, 李海涛, 王海波, 等.使用顺序查询模式优化在线空间数据分析[C]//第 15 届 IEEE 信息重用和集成国际会议论文集,美国加利福尼亚州旧金山,2014 年。
[13] 李林, 沉春, 王林, 等.iMiner: mining inventory data for intelligent management[C]//第23届ACM信息与知识管理国际会议论文集,中国上海,2014.
李涛,男,南京邮电大学计算机与软件学院院长,南京邮电大学大数据研究院院长。2004年7月获得美国罗*敏*感*词*大学计算机科学博*敏*感*词*。2004年至2014年在佛罗里达国际大学(Florida International University)计算机科学学院任助理教授、副教授(tenured professor)、教授(full professor)。教授),*敏*感*词*项目主任。由于在数据挖掘和应用领域的卓越研究工作,多次获得各种荣誉和奖励,
曾春秋,男,博士。佛罗里达国际大学计算机专业学生,南京邮电大学计算机学院大数据项目组成员。2009年7月至2012年1月,任阿里巴巴(中国)网络技术*敏*感*词*高级数据工程师。主要研究方向为*敏*感*词*分布式数据挖掘和系统管理。发表多篇数据挖掘国际顶级期刊和会议论文,参与编写多部数据挖掘相关应用领域书籍。
周伍白,男,佛罗里达国际大学计算机系博士生,南京邮电大学计算机学院大数据项目组成员。他的主要研究兴趣包括数据挖掘和计算机系统管理。发表多篇数据挖掘国际顶级期刊和会议论文,参与编写多部数据挖掘相关应用领域书籍。
周启峰,女,博士,厦门大学自动化系副教授。2002年起从事数据挖掘与智能系统方面的研究工作。2014-2015年在美国佛罗里达国际大学做访问学者。他的主要研究兴趣包括机器学习、数据挖掘及其在可持续发展中的应用。
郑力,男,博士。2014年获得美国佛罗里达国际大学计算机专业博*敏*感*词*,南京邮电大学计算机学院项目研究员。主要研究方向为信息检索、推荐系统、灾害信息管理。曾发表多篇关于数据挖掘的国际顶级期刊和会议论文,参与编写多部数据挖掘相关应用领域书籍。