科技情报信息采集与发布平台的关键技术及建设.pdf 4页

优采云 发布时间: 2020-08-27 21:36

  科技情报信息采集与发布平台的关键技术及建设.pdf 4页

  软件应用与设计 Software Application and Design科技情报信息采集与发布平台的关键技术及建设陈敏(中国电建集团华东勘测设计研究院*敏*感*词*,杭州 310014)摘 要:本文简略介绍科技情报信息采集与发布平台的搭建、功能及特性,详细阐述了平台涉及到的关键技术、实现原理和科技情报门户的开发建设思路及经验。关键词:情报;全文检索;网络爬虫;聚焦爬虫;简报;采集;邮件推送中图分类号:TP399文献标识码:A文章编号:当今世界已步入知识经济时代,技术发展 日新月异,新统或外网共享的格式文件,电子邮件、RSS 分发等来 自多重 技术、新行业不断涌现,跟踪*敏*感*词*行业动态与技术发展,信息源的多重格式信息,对采集到的信息 自动进行过滤、分 充分研究并合理应用,已成为企业快速发展的重要推动力。类和排重等智能化处理,采集完毕后的信息存于原创情报库近些年来华东院生产经营快速扩张,一批世界级项 目陆续中。通过该平台可整合信息搜集渠道,保证信息的全面性, 开工,新领域新业务不断拓展,当前又面临着战略变革,院提升情报和情报产品质量。当今时代是信息爆燃的时代,各 生产经营对科技信息的需求已不仅仅满足于本院已有的图档种信息以级数的速率下降,其中互联网是这种信息的主要载 信息资料,为了进一步举办科技情报工作,除了完善专门的体,情报采集子平台会 自动剖析互联网网页结构,识别与正 情报工作机构、完善情报组织体系和制订情报工作流程和制文内容相关的图片和表格,并采集到系统中。

  如果遇到特殊 度外,还必须完善 自己基于信息化的科技情报平台,为院生站点,分析网页格式编撰采集脚本,对数据进行采集从而提 产经营、战略变革提供*敏*感*词*技术发展趋势及行业动态信息。高情报的精确度,保证情报的实效性。情报采集的成果储存科技情报信息采集与发布平台 (以下简称:科技情报平在原创素材库中,供后续环节处理。 台)是指借助计算机、网络、数据库、自动搜索和全文检索2. 情报加工 等信息技术,搜集并发布即时的科技情报信息,为企业的生情报加工前要先对情报进行分类规划,对人员角色进行 产、管理、经营提供最新的科技情报信息;在采集发布过程中,权限规划。 逐渐积累产生专业的科技情报数据库,为企业的生产科研提分类规划:支持多层分类体系规则,可以采用多种灵活 供情报数据资源。的方式定义和维护分类体系,并可设定规则构建分类和情报随着时代的发展,现在企业的情报工作早已赶超了科技源之间的手动关联。管理员可以按情报信息来源、关键字等 情报和图书情报的范畴,融合了情报学、管理学和行业知识规则进行新建分类,并且对分类进行维护。分类支持导出与 的多种领域知识。对于企业情报平台建设而言,关键是解决导入。 平台与企业 自身业务结合的问题,这个结合过程就是情报平权限规划:对不同的平台用户进行授权,支持权限、角 台构架的产生过程和情报平台渐渐发展建立的过程。

  色和用户,可以按照实际需求界定角色 (情报采集人员、情一、科技情报平台报加工人员、情报主管),赋予角色相应的权限。(一)平台搭建情报规划后进行情报处理,情报加工主要由自动智能处科技情报平台可实时监控和采集内外网的网站内容,对理情报、人工处理加工情报、撰写情报简报、情报发布等功 采集到的信息 自动进行过滤、分类和排重等智能化处理,最能组成。 终将最新内容及时发布下来,实现统一的信息导航,同时提(1)自动智能处理情报。1)情报加工子平台提供基于 供包括全文、日期等在内的全方位信息查询,情报推送等服务。内容和基于规则的两种 自动分类。前者通过加载样本 自动生目前我们已建成的科技情报平台,借助 TRS 公司的网路成特点分类模板;后则基于关键词,通过编辑规则,进行识 雷达产品和竞争情报系统产品,在此基础上构建统一的情报别和分类。使用时可依照实际情况互相结合使用;2)情报加 搜集、情报加工处理和剖析、情报服务于一体的情报工作协工子平台会依照内容的相似性进行排重判别;3)情报加工子 同平台;同时按照情报信息所处的不同时段,把科技情报平平台会 自动提取关键词生成摘要,实现 自动标引和快速预览。 台分为三个数据库:原创素材库、情报信息库和情报产品库。

  (2)人工处理加工情报。情报加工子平台支持用户以科技情报平台的流程如图 1 所示。WORD、PDF 等格式递交情报;或将 OCR 格式的情报导出到系统中;用户可以图文混排的编撰情报,并设定多重情报属性,包括分类、内容相关度、重要性和密级等。(3)撰写情报简报。用户选择情报素材库中的情报信息后,系统会依照用户预先设定的简报模板,自动生成科技情报简报,并且可以推送给用户。情报加工完成后数据存于情报信息库中。(4)情报发布。可以将处理完成的情报发布至科技情报门户和企业的综合管理信息系统 (企业内部 OA 系统)。3.情报服务情报服务主要由情报门户、科技情报简报推送、公共信息发布、情报检索功能组成。科技情报系统具有信息门户,图1 科技情报平台流程按照分类导航提供给用户情报服务,门户中的情报 (包括简1. 情报采集报)能以电子邮件的方式推荐给其他人。科技情报系统提供情报采集可 自动采集内外网上的网页信息、本地文件系对情报信息的全文检索、标题检索、作者检索、日期检索等 217软件应用与设计Software Application and Design 功能。科技情报系统中的情报可以直接发布到综合管理信息所须要的信息。

  与传统通用爬虫不同,聚焦爬虫并不追求大 系统中的 “全院新闻模块”中。提供服务的情报存于情报产的覆盖,而将 目标定为抓取与某一特定主题内容相关的网页, 品库中。为面向主题的用户查询打算数据资源。该技术特征太适宜对(二)平台特性科技情报信息做定向采集。科技情报信息采集与发布平台在信息采集处理、情报检2. 聚焦爬虫实现原理 索、系统集成、多样化情报服务、平台权限密级等方*敏*感*词*有聚焦爬虫的基本思路,即按照一定的网页剖析算法过滤 一定的优势特性。与主题无关的链接,然后解析并储存符合条件的网页上的内1. 具有完备高效的情报采集和处理能力容到本地,保留符合条件的链接加入 URL 队列,它将按照一平台针对互联网信息 自动采集,每小时支持 10 万张网定的搜索策略从 URL 队列中选择下一步要抓取的网页 URL, 页以上;相关图片、表格、标题、正文、摘要等信息 自动辨识、并重复上述过程,直到达到系统的某一条件时停止。相对于 获取和再现;重复信息确切过滤,垃圾信息 自动清除;自动通用网路爬虫,聚焦爬虫还须要重点解决三个主要问题: 处理 Word/Excel/PDF 等常用文档正文内容抽取。(1)对抓取 目标网页的描述或定义。

  2. 支持海量情报快速精确检索(2)对网页或数据的剖析与过滤。平台的检索技术采用 TRS 全文检索技术,通过调用 TRS(3)对网页 URL 的搜索策略。 API 接 口,访问TRS 的索引库。系统支持豪秒 / 百万篇级检抓取 目标网页的描述和定义是决定网页分析算法与 URL 索响应;采用元搜索技术 自动汇集多家搜索引擎结果。搜索策略怎么制定的基础。而网页分析算法和候选 URL 排序3. 情报门户采用第三方 自主开发订制的门户算法是决定搜索引擎所提供的服务方式和爬虫网页抓取行为采用谷歌 .net C# 语言 自主研制情报门户网站,该门户的关键所在。这两个部份的算法紧密相关。 与华东院综合管理信息系统在用户组织机构和系统登陆方面目前,现有聚焦爬虫对抓取 目标网页的描述可分为基于 进行整合,用户组织机构信息从院综合管理信息系统的人事目标网页特点、基于 目标数据模式和基于领域概念三种方式; 系统读取。系统实现单点登陆,即用户一旦登陆综合管理信网页分析算法可以归纳为基于网路拓扑、基于网页内容和基 息系统,无需再度输入门户网站的用户名密码即可访问情报于用户访问行为三种类型;网页的搜索策略可以分为深度优 门户网站。

  先、广度优先和最佳优先三种方式。各种算法都有各 自的优4. 平台实现可订制、可扩充的多元化情报服务、情报导缺点和应用场景在此就不一一展开剖析。在科技情报平台中, 航、情报简报等信息技术中心利用 TRS 公司的网路雷达产品解决科技情报主第一,情报简报可通过短信 自动推献给相关人员查阅。题聚焦爬虫技术问题,在实际应用过程中取得良好的疗效。 邮件推送实现思路即情报发布人员可在人事系统中直接选择(二)全文检索技术 部门、用户组或用户,人员对应的电邮地址作为寄件人,简1. 搜索概念 报内容作为电邮正文。用户接收到电邮,可脱离科技情报平信息系统中接触到的数据总体分为两种:结构化数据和 台直接浏览简报信息;第二,情报简报可发布到科技情报门非结构化数据。结构化数据指具有固定格式或有限宽度的数 户网站中,以供有权限的人员查询。科技情报门户网站有专据,如数据库,元数据等;针对结构化数据的搜索,如对数 门的栏 目展示简报信息;第三,情报简报可与华东院综合管据库表的搜索,可用 SQL 语句查询。非结构化数据指无固定 理信息系统的公告信息发布模块集成。由于科技情报系统属格式或不定长的数据,如电邮,Office 文档等。

  针对结构化 于专业性比较强的网站,一般用户极少直接登陆该系统,而数据的搜索,如通过 windows 自带的搜索可以搜索文件内容, 华东院综合管理信息系统是用户办公的门户网站,用户必须Linux 下的 grep 命令,再用 Google 和百度可以搜索大量 内 要登陆该系统进行办公。因此,把简报信息推送到院综合管容数据。 理信息系统就十分有必要和有意义,这样用户无需登陆专业对非结构化数据的搜索,可以理解为对全文数据的搜 的情报门户系统即可在办公门户上直接查看简报信息;第四,索主要有两种方式:1)顺序扫描法 (Serial Scanning)。 情报导航上可灵活展示各分类信息。分类信息可与情报规划所谓次序扫描,即对于搜索内容收录某一个字符串的文件, 中的分类信息一对多灵活对应。需挨个文档检测,对于每一个文档,从头听到尾,如果此文5. 面向角色的用户权限管理和 自定义的文档权限管理档收录此字符串,则此文档为要找寻的文件,接着查看下一系统不仅外置固定角色外,用户可依照实际情况构建角个文件,直到扫描完所有的文件;2)全文检索 (Full Text 色和权限对应关系,以满足 自己的管理需求。

  系统除了支持Search)。所谓全文检索,是指计算机索引程序通过扫描文 角色与功能模块构建对应关系,而且角色可与文档权限构建章中的每一个词,对每一个词构建一个索引,指明该词在文 对应管理。文档权限从低到高分为标题浏览限制、标题浏览、章中出现的次数和位置,当用户查询时,检索程序就按照事 正文浏览、正文下载四个级别。先构建的索引进行查找,并将查找的结果反馈给用户的检索二、关键技术方法。这个过程类似于通过字典中的检索字表查字的过程。科技情报信息采集与发布平台中核心功能是信息采集和以上两种方法对全文数据的搜索利弊一 目了然,但是各 情报门户。信息采集模块对采集站点的URL、链接属性、内有 自己的应用场景。在华东院科技情报平台搜索中,采用全 容属性等进行设置,该功能通过定向抓取相关网页资源的聚文检索技术实现快速全文查询。 焦爬虫技术实现;情报门户支持对所有情报信息进行快速搜2. 全文检索实现原理 索,该功能通过全文检索技术实现。下面重点介绍聚焦爬虫全文检索的基本思路,即将非结构化数据中的一部分信 技术和全文检索的实现原理和应用该技术所涉及到的产品。息提取下来,重新组织,使其显得有一定结构,然后对此有(一)聚焦爬虫技术一定结构的数据进行搜索,从而达到搜索相对较快的目的。

  1. 爬虫概念全文检索大体分两个过程,索引创建和搜索索引。聚焦爬虫是一个 自动下载网页的程序,它按照既定的抓索引创建:将信息系统中所有的结构化和非结构化数据 取 目标,有选择地访问互联网上的网页与相关的链接,获取提取信息,创建索引的过程。218软件应用与设计 Software Application and Design搜索索引:就是得到用户的查询恳求,搜索创建的索引,载功能向主管部门进行申请下载。 然后按照一定的排序算法返回结果的过程。2. 科技情报门户中的文档保护方式全文检索的总体流程如图 2 流程所示。(1)禁止页面右键,为了避免用户可以复制页面上的内容设置了网页严禁右键。(2)网页信息通过 ajax 访问,直接查看网页源代码未能查看到情报的内容。(3)数据流加密,对情报文件的数据流采用加密方式,后台对情报信息进行加密通过 ajax 方法传输到前台,前台通过 js 进行揭秘展示。3. 情报检索借助科技情报平台的索引服务,可对 “情报资料库”创建全文检索索引库。门户网站通过 ADO.NET 应用开发接 口实现情报的全文检索。情报采集夹:每个用户具有 自己的采集夹,可 自动以维护栏 目结构,可将科技情报门户上的整篇情报存入采集夹中的相应栏 目中。

  采集夹实现方法:通过创建用户采集夹结构表和采集文件关联表实现该功能。用户采集夹结构表:存储用户 自定义图2 全文检索的总体流程的栏 目结构;采集文件关联表:存储 自定义采集夹栏 目与情在 科 技情 报 平 台 中,借 助 TRS 公 司 的 TRS Database报编号的对应关系。 Server 全文数据库服务器,解决了科技情报信息的全文检索4. 情报下载管理 问题。下载管理分为:待申请文档、申请中文档、申请通过文档、三、平台门户建设已过期文档;如果对某篇情报没有下载权限可点击申请下载,科技情报门户是基于科技情报平台所开发的信息展示平审批通过后,申请人即可下载所申请的情报内容。 台,网站主要构架图如图 3 所示。(三)与综合管理信息系统集成1. 科技情报简报加工科技情报简报数据从科技情报原创素材库中获取,再依照简报模板款式生成科技情报简报。2. 科技情报简报发布科技情报简报发布时可以选择发布到科技情报门户和综合信息系统全院新闻栏 目。当发布到全院新闻时,科技情报系统将科技情报简报正文内容以HTML 的格式插入公共信息数据库,其中简报模板素材访问公共的科技情报简报模板库。3. 集成优势图3 科技情报网站主要构架图(1)数据源的唯一性。

  从科技情报系统生成,访 问同科技情报平台、科技情报门户、综合管理信息系统三个一套简报模板。 系统之间通过单点登陆整合在一起。(2)简报相对的独立性:一旦数据发布完成后,简报(一)科技情报平台就存在于两个系统中,两个系统可以分别对简报进行更改、科技情报平台作为情报的加工处理平台,可为 “科技情删掉等操作,相互间不会形成影响。 报门户”和 “综合管理信息系统”提供科技情报信息。如图四、结束语 3 所示,情报资料库作为科技情报门户的情报数据源。在科科技情报系统 自2010 年 12 月在全院范围即将运行以来, 技情报平台上可对栏 目和人员角色权限进行规划管理。根据华东院自身业务和需求不断地进行构建和优化,目前整(1)栏 目规划:在科技情报平台中间构建栏 目信息,体运行情况 良好,各项功能符合先前设计要求,充分发挥了 供门户展示导航用。平台自身优势。通过该平台的搭建,对华东院的科技情报体(2)人员角色权限角色——高层领导、中层领导、普系进行了统一规划,改进了信息搜集效率,大大减少人工录 通职工。入工作量,提高了对 目标网站信息采集处理的及时性和有效栏 目权限——可以给每位角色设定能访问的栏 目。

  性,实现对多种信息源的采集、分类和储存,逐步完善起企文档权限——每篇文档都设定有标题浏览限制、文档下业的知识情报库。该平台还实现了信息共享,可使情报工作 载权限、浏览正文、浏览标题权限四个权限属性,绝密、机密、人员一起协同工作。同时通过该平台,使企业职工可以及时、 秘密、普通四个密级。全面地获取各种科技情报信息,为广大职工进行查询提供了人员浏览权限:人员可设定对不同权限文档所具有的相极大便利,也为领导决策提供相关参考信息。 应权限,并且可设定人员所具有的密级。参考文献:(二)科技情报门户[1]北京拓尔思信息技术*敏*感*词*.TRS竞争情报系统技科技情报门户主要由情报展示、情报检索、情报采集夹、术蓝皮书[S]. 情报下载管理等部份组成。[2]吕赛辉.主题爬虫关键技术研究及应用[D].浙江工业1. 情报展示学院,2009.根据科技情报平台所规划的栏 目展示信息,每篇文档具 有下载、申请下载、采集几个功能,如果用户对该文档没有[作者简介]陈敏 (1981.04-),男,浙江永嘉人,工程师, 下载权限,则文档为保护状态严禁复制。用户可通过申请下专科,研究方向:计算机软件开发以及企业信息化。 219 科技情报信息采集与发布平台的关键技术及建设 作者:陈敏 作者单位:中国电建集团华东勘测设计研究院*敏*感*词*,杭州,310014 刊名:消费电子 英文刊名:Consumer Electronics Magazine 年,卷(期):2014(22) 本文链接:/Periodical_dqpj201422201.aspx

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线