自动采集子系统(桂林市产业竞争情报平台的构建(一)--李力)
优采云 发布时间: 2022-04-05 22:24自动采集子系统(桂林市产业竞争情报平台的构建(一)--李力)
李莉
一、简介
随着计算机网络的发展和大数据的兴起,世界上的信息量呈爆炸式增长,在互联网浩瀚的信息海洋中进行人工搜索不仅耗费大量的时间和精力,而且也难以保证准确性。因此,研究桂林工业竞争情报服务平台的理论基础、系统建设、系统开发和系统组成,构建高度智能化的各子系统,实现桂林工业情报共享,不仅能为企业提供科学决策。政府对企业进行技术创新、应对外部变化、提升产业竞争力具有重要意义。二、行业竞争情报平台建设
(一)平台整体框架
产业竞争情报的体系建设主要基于协同原则和易推广原则。为适应桂林工业智能化特点,平台以基础网络为纽带,以互联网信息为服务模式,实现数据自动化采集、工业数据智能分析、工业研究等模块、竞争战略分析和竞争情报服务。前台实时显示;根据建立的不同产业链,实现资源的深度整合,实现以智能分类为核心的数据划分,实现数据处理、分析、发布的完整处理流程,最终构建了完整的产业竞争情报服务体系。如图1所示。
(二)平台的功能定位
企业、行业和政府是行业竞争情报的三大基本主体,结合行业实际情况,在建设竞争情报服务平台时,充分考虑政府和企业用户,提供一站式、零远程服务模式;用户不仅可以获得情报信息产品,还可以接受高水平、个性化的专题咨询研究成果,实现实时信息发布、行业数据统计、趋势分析图表展示、专题咨询研究成果推送、智慧互动交流和其他功能,实现全面高效。服务内容。
(三)平台系统搭建
1.互联网信息自动化采集子系统建设
采集子系统根据不同来源、不同类型的数据,构建全站下载、专栏采集、元搜索、论坛采集、定向采集等引擎来自网络。,自动跟踪、下载和分析来自不同来源的数据,具有全面的信息采集能力。工作原理如图2所示。
全站下载引擎和栏目采集引擎应用于行业新闻网站、企业网站、博客网站等采集页面比较规范,不需要手动配置数据解析模板,引擎可以自动分析网站结构和页面信息,更容易实现采集的补全@>。图1 系统总体结构
图 2 采集 子系统操作*敏*感*词*
元搜索引擎应用于各种公共搜索引擎的检索结果数据采集,经过采集后,系统自动对各种搜索引擎的结果进行合并检查,自动完成对信息结果。获取更完整的数据。
论坛 采集 引擎对各个论坛的主帖和关注帖执行 采集。用户设置好需要采集的内容后,系统可以通过向导式学习模型,依赖向导式学习模型。自动分析,实现全面的论坛数据采集。
定位采集引擎可以采集格式化各类B2B和B2C电子商务网站的数据,包括厂家供求信息、产品价格销售数据、物流信息等,< @采集的信息自动处理并存储在工业研究平台中,可以直接进行图表分析、统计分析和趋势分析的研究。
2.工业数据智能分析工具集构建
工业数据分析工具集包括智能语义分析工具和结构化数据统计分析工具两类分析工具,主要用于海量数据和图表统计的自动化处理,可大大减轻智能数据的管理和统计工作,使科研人员从繁重的情报处理和数据整理工作中解放出来,将更多的精力投入到以重点支撑为导向的专题研究上。
智能语义分析工具使用采集的数据,经过索引、关键词、摘要、自动分类、聚类、正反信息识别、主题识别等一系列服务。文本索引,将标准化信息统一存储和存储,最终用于用户的信息浏览、舆情分析、内容分析、统计分析,可以大大提高情报分析人员的海量数据处理能力,大大降低服务体系。所需的信息维护人员数量。如图 3 所示。
结构化数据统计分析工具主要对采集子系统发布的信息进行全自动处理和人工手动操作。无需用户干预,可对信息进行查询、重新查询、自动索引、依次计算文章关键词、计算文章汇总、自动分类文章 、聚类分析、文章否定识别、主题识别等处理过程,最终进入行业研究平台文献库保存并发布在竞争情报服务网站供政企用户浏览检索. 如图 4 所示。
3.行业研究平台搭建图3 智能语义分析工具图
该平台的主要用户是情报编辑和学科研究人员。根据用户设定的产业链结构,划分为多个产业研究子平台。不同的平台用于各自的竞争情报子库,也在不同的产业链之间进行交换。用于统计分析的数据。平台构建的模块包括人工数据采集及处理、简报制作、行业数据统计分析、信息服务内容推送、系统安全管理等,如表1所示。 表1 行业研究平台功能
4.竞争战略分析子系统的构建
竞争战略分析子系统的主要功能是在情报研究和产业研究的理论和方法的指导下,通过计算机辅助,对定性和定量的情报数据进行定量分析、比较分析、综合计算和评价。分析模型和过程,形成各种情报数据。决策支持报告。