整套解决方案:基于数据挖掘的企业竞争情报智能采集模型研究

优采云 发布时间: 2020-08-31 04:44

  基于数据挖掘的企业竞争情报采集模型研究

  全文共5135个词,阅读时间为13分钟,快速浏览仅需3分钟.

  英文标题: 基于数据挖掘的竞争情报智能采集模型的研究唐涛,张玉峰(

  内容摘要: 通过对*敏*感*词*知名竞争情报软件的比较分析,构建了基于数据挖掘的企业竞争情报采集模型. 该模型集成了各种数据挖掘新技术,集成了智能采集过程,实现了信息采集,信息预处理,智能采集和知识获取的自动化和智能化.

  关键字: 竞争情报,情报采集,数据挖掘竞争情报,智能采集,数据挖掘

  GB / T 7714-2015格式引用: [1]汤涛,张玉峰. 基于数据挖掘的企业竞争情报智能采集模型研究. [J]或报纸[N]. 情报科学,2007(10): 1575-1578,1592

  

  正文内容

  中文图书馆分类号: G350文档标识号: A文章编号: 1007-7634(2007)10-1575-04

  随着信息技术的发展,企业竞争情报工作者面临的现实是信息源众多,复杂,数据结构多样,数据量不断增加.

  如何对这些数据和信息进行深入分析,并为用户提供有效,快速的有价值的情报?数据挖掘是一种新兴技术,可以从海量数据中提取有用的信息和知识. 因此,一种可行而有效的方法是利用数据挖掘等先进技术来智能地采集,分析和处理这些海量数据和信息.

  本文集成了各种数据挖掘新技术,探讨了竞争情报采集的原理,方法和技术,并构建了基于数据挖掘的企业竞争情报采集模型.

  1企业竞争情报采集系统分析

  1.1企业竞争情报采集系统的比较

  竞争情报系统(CIS)是一个竞争战略决策支持和咨询系统,其中以人类智能为主导,以信息网络为手段,以企业竞争力为目标. 应该为企业获得竞争优势提供强有力的智力支持和智力保障[1].

  在情报的采集方面,竞争情报软件提供了各种功能强大的工具,可自动或协助竞争情报人员采集相关信息,并简单地分析和处理采集到的信息. 但是,这些软件仍然不能满足企业战略管理和市场竞争决策的需要. 改进和创新新型竞争情报采集理论和软件是非常紧迫和重要的. 为此,对*敏*感*词*知名的竞争情报软件进行了全面的比较分析,如表1 [2]所示.

  

  1.2企业竞争情报采集系统的缺点

  从上面的比较分析中,我们可以看到每种软件在情报采集方面都有自己的优势,例如在情报采集阶段使用自动搜索技术,在情报分析阶段使用文本挖掘技术和自动摘要技术,以及情报服务在阶段使用自动推送技术. 但是总的来说,单个软件的功能远非真正的竞争情报采集的智慧. 因此,由这些软件组成的竞争情报采集系统存在一些缺陷. 总结分析如下.

  (1)尚未全面集成各种信息源. 对于竞争情报采集系统,信息源是多种多样的. 如何最大程度地整合各种信息源并提高信息的召回率对于获得全面的情报至关重要. 但是,各种流行的竞争情报软件所支持的信息源是混杂的,信息源的集成还不够.

  (2)信息采集结果的质量很差. 这主要表现为信息采集的重复性,不相关性和表面化. 当前,竞争情报采集系统主要使用搜索引擎和其他检索工具来自动采集和分析Internet上的信息. 检索结果的数量很大,并且大多数都是重复的,无关的,浅的甚至是错误的. 信息.

  (3)情报采集过程缺乏协作. 情报采集过程中缺乏协作表现在信息采集和信息分析的分离中,尤其是缺乏自动化分析功能. 当前,借助搜索引擎自动采集的信息量大,质量差,给信息分析带来很大困难,从而破坏了信息的采集和分析.

  (4)信息处理缺乏智能. 在信息处理方面,某些系统仅组织采集到的信息,然后将其移交给竞争情报人员,以进行手工定性分析和经验判断. 有许多不确定因素,结果是相对随机的. 尽管某些系统使用一些简单的统计分析方法,但是它们都在相对浅的层次上处理,无法将信息转换为准确的信息,更不用说获得潜在的信息了. 尽管大多数系统可以自动过滤和删除重复的结构化数据,但它们不能有效地处理半结构化,非结构化和异构的分布式数据.

  当前,竞争情报采集工作缺乏实用,高效的智能采集机制,策略和方法. 本文旨在利用数据挖掘和其他新技术探索竞争情报采集的模型和方法.

  2基于数据挖掘的企业竞争情报智能采集模型

  2.1数据挖掘

  数据挖掘(DM)是从大量不完整,嘈杂,模糊和随机数据中提取隐式和未知有用信息和知识的过程. 它结合了信息管理,人工智能,机器学习和统计等许多领域的理论和技术.

  数据挖掘过程通常需要经历以下五个阶段: 问题定义,数据提取,数据预处理,数据挖掘和知识评估[3]. 当前,数据挖掘主要在数据库,数据仓库,Internet和文本等信息源中进行.

  将数据挖掘应用于竞争情报采集可以自动分析数据库,数据仓库和Internet中的数据和信息,并从中挖掘潜在的情报知识,从而可以实现情报采集和知识发现与智能的自动化.

  2.2智能采集

  鉴于当前竞争情报系统中普遍存在的突出问题,基于数据挖掘在信息分析和知识发现中的优势,本文将数据库和数据仓库挖掘,Web挖掘,在线分析处理( OLAP)和语义分析技术. 构建了基于数据挖掘的竞争情报采集模型,如图1所示.

  

  图1基于数据挖掘的企业竞争情报智能采集模型

  该模型集成和集成了情报采集全过程的重要功能,实现了情报采集,信息预处理,情报采集和知识获取的自动化和智能化. 对于来自企业内部各种数据库和数据仓库的数据,请使用数据库挖掘,数据仓库挖掘和OLAP技术进行深度处理;对于主要来自Internet的企业外部信息,请使用Web挖掘和语义分析技术来挖掘有关竞争环境,竞争对手和客户的信息. 通过各种方式(例如模式,规则,报告,方案等)挖掘的情报知识,一方面以可视方式呈现给用户,另一方面存储在情报知识库中,供以后使用.

  智能采集模型的主要组成部分介绍如下.

  (1)信息源. 信息源主要有两部分,企业内部信息资源和企业外部信息资源. 内部信息资源主要来自各种信息系统数据库,数据仓库和内部文本,并且主要用于分析企业自身的竞争战略资源,例如人力资源,财务状况,库存和物流. 外部信息资源主要来自行业组织网站,竞争对手网站,互联网网页,网络数据库,电子邮件等,主要用于了解,掌握和分析企业的竞争环境,竞争对手和客户的信息,以及公司可能面临的风险的预警,例如行业宏观政策信息,竞争对手的产量和市场份额,客户需求和偏好等.

  (2)信息采集. 信息采集有三种主要方式: 数据库搜索,网络搜索和文本搜索. 对于数据库和数据仓库,使用查询语言SQL和DMOL构造的程序会自动采集数据. 对于Internet上的网页信息,网络搜索引擎会对其进行检索. 有关文本信息,请使用文本搜索工具进行主题搜索或内容搜索.

  (3)信息预处理. 从各种数据库和数据仓库获得的数据中存在“脏数据”,即数据是空的,嘈杂的,不一致的. 对于检索到的各种外部Web资源和文本资源,还存在诸如冗余,过时且无关的主题内容. 必须对其进行预处理以满足数据挖掘的条件. 预处理方法主要包括数据清理,数据集成,数据协议,信息摘要和信息分类.

  (4)智能采集. 智能采集是将数据抽象为智能知识的重要步骤. 对于支持多个数据源和多种知识模式的智能情报采集模型,需要设计不同的数据挖掘引擎. 该模型主要使用数据库挖掘引擎,数据仓库挖掘引擎,Web挖掘引擎,OLAP(在线分析处理)引擎和语义分析引擎来实现深层次的智能采集.

  数据库是用于数据挖掘的最丰富的数据源. 数据库挖掘主要处理结构化数据.

  数据仓库是面向主题的,完整的,非易失性的并且随时间变化的数据采集,用于支持决策管理[4]. 通常,数据仓库是通过多维数据模型建模的. 因此,通过它挖掘信息之间的联系非常有效. 数据仓库挖掘主要处理多维数据.

  Web挖掘主要处理Internet上的结构化和非结构化信息. 它可以从网页的文本内容中挖掘出深入的情报知识,通过Web资源之间的超链接结构发现对象之间的关联模式,并从Web日志等文件中挖掘用户行为模式.

  OLAP从数据仓库的综合数据开始,提供面向分析的多维模型,并使用多维分析方法从多个角度,多个侧面和多个角度对多维数据进行过滤,分析和汇总水平. OLAP技术是数据仓库挖掘的有效支持.

  语义分析是利用计算机自动分析信息源的语义内容,从而实现信息的自动汇总和自动分类. 它主要用于信息提取和文本分类. 语义分析是一种语义知识挖掘的新技术,它支持所有资源的内容挖掘.

  2.3主要的智能采集方法

  (1)数据库和数据仓库挖掘. 数据库和数据仓库挖掘的主要方法包括概念描述,关联分析,分类和预测,聚类分析等. 下面讨论概念描述和关联分析方法.

  概念描述是指数据集的一般描述,包括特征描述和比较描述. 特征描述是从数据集中提取数据的总体特征,即一般特征. 比较描述是描述两个或更多数据集之间的差异,即特殊性[5]. 具体步骤如下: ①数据采集: 通过查询采集目标和比较数据; ②属性和维度的分析: 确定属性和维度的集合,如果存在多个维度,则进行分析和比较,并进行相关度量; ③删除属性: 使用选择的相关分析度量来删除不相关和弱相关的属性; ④特征描述: 使用一组指定的属性摘要阈值进行概括以生成特征描述; ⑤比较描述: 通过目标集与集合的测量结果进行比较,得出比较描述.

  关联分析是分析数据中隐含的相互依赖性并描述事物之间相互联系的规律的过程. 如果两个或两个以上数据项的值重复出现的可能性很高,则它们之间存在一定的关联性,并且可以为这些数据项建立关联规则.

  关联规则的分类方法很多. 根据规则中处理的值类型,可以将它们分为布尔关联规则和定量关联规则. 根据规则所涉及的数据维度,可以将它们分为一维关联规则和多维关联规则. 规则集中涉及的抽象层可以分为单层关联规则和多层关联规则. Apriori算法可用于挖掘一维单层布尔关联规则. MAQA(定量属性之间的挖掘关联)算法是一种量化关联规则挖掘算法,它将量化关联规则问题转换为布尔关联规则问题,然后使用现有的布尔关联规则算法获得有价值的规则. 此外,其他关联分析算法还包括频繁模式树算法[6].

  (2)OLAP. OLAP的目标是在多维数据环境中满足特定的查询和报告要求. 它的技术核心是“维度”的概念. 维度是人们观察数据的特定角度. 例如,当企业考虑产品销售时,通常会从不同的角度(例如时间,区域和产品)进行深度观察. 这里的时间,区域和乘积是维度,由这些维度和测得的指标形成的多维数组是OLAP分析的基础,可以正式表示为(维度1,维度2 ...维度n,衡量指标),例如(地区,时间,产品,销售).

  多维分析是指采取各种动作,例如以多维形式组织数据的钻取,切片,切块和旋转数据,以便分析数据,以便用户可以多角度,多角度观察深入了解数据中收录的信息. 钻取是为了更改尺寸级别并转换分析粒度,包括向上钻取和向下钻取. 汇总将某个特定维度上的低级详细数据概括为高级汇总数据,或减少维数;而“向下钻取”则相反,它从摘要数据变为详细数据以进行观察或添加新维度. 选择某些维度上的值后,切片和切块与其余维度上的度量数据分布有关. 如果只有两个剩余维度,则为切片;否则为一个切片. 如果有三个,那就是一个骰子. 旋转是为了变换尺寸的方向,即重新排列尺寸在表格[7]中的位置.

  OLAP具有多种实现方法,根据存储数据的方式不同,它们可以分为ROLAP(关系OLAP),MOLAP(多维OLAP)和HOLAP(混合OLAP). ROLAP基于关系数据库,并使用关系结构来表示,存储和分析多维数据. MOLAP以多维数据组织为核心,并使用多维数组存储数据. 多维数据将在存储中形成“多维数据集”结构. “立方体”的旋转,切块和切片是MOLAP的主要技术. HOLAP是指基于混合数据组织的OLAP实现. 例如,低层是关系矩阵,高层是多维矩阵.

  (3)Web挖掘. Web挖掘的主要对象是Internet上的信息,根据不同的功能可以将其分为三类: Web内容挖掘,Web结构挖掘和Web使用率挖掘.

  Web内容挖掘主要基于网页本身的内容资源,尤其是文本资源,其主要应用是文本挖掘技术. Web结构挖掘是指挖掘页面之间的超链接结构,页面的内部结构以及URL中的目录路径结构,从而揭示收录在文档结构信息中的有用模式,例如识别中心和权威性Web页面. Web用法挖掘是挖掘Web日志文件,以查找有关用户访问模式,相似或潜在用户组以及常用路径的知识.

  3结论

  实践证明,数据挖掘是一种用于信息分析和知识发现的自动化方法和技术. 通过比较和分析*敏*感*词*竞争情报软件的特点和缺点,构建了竞争情报采集模型. 该模型将各种数据挖掘新技术应用于竞争情报采集的全过程,充分发挥了数据挖掘技术在处理海量数据中的优势,实现了信息采集,信息预处理,情报采集和知识获取的集成,自动化. 和情报. 新概念,新方法,新技术的应用将是提高竞争情报采集系统智能的有效途径,必将成为竞争情报系统未来的发展方向.

  参考

  [1]包长火,谢新洲. 企业竞争情报系统[M]. 北京: 华夏出版社,2002: 2.

  [2]吴炜. 国外典型竞争情报软件的比较研究[J]. 情报杂志,2004,23(1): 112-116.

  [3]刘晓红,单晓红. 数据挖掘在竞争情报系统中的应用[J]. 管理学报,2005,2(2): 129-130.

  [4] W.H. Inmon. 数据仓库(第三版)[M]. 北京: 机械工业出版社,2003: 21.

  [5]韩家玮,米雪莲·坎伯. 数据挖掘: 概念与技术[M]. 北京: 机械工业出版社,2001: 119.

  [6]邵凤京,于忠庆. 数据挖掘原理与算法[M]. 北京: 中国水利电力出版社,2003: 99-100.

  [7]苏新宁,杨建林,姜念南,李翔. 数据仓库与数据挖掘[M]. 北京: 清华大学出版社,2006: 60-63.

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线