利用网页采集技术消除“信息孤岛”临床工作者和医院管理人员提供更多服务

优采云 发布时间: 2021-05-08 04:24

  利用网页采集技术消除“信息孤岛”临床工作者和医院管理人员提供更多服务

  利用网页信息采集技术建立医院内联网新闻平台作者:张磊,李景树,马育新,张炜

  摘要:利用网页采集技术构建内部新闻平台,医务人员可以通过信息系统的内部网络了解*敏*感*词*新闻动态。

  关键词:网页采集;内部网新闻; cms

  中文图书馆分类号:G640文档标记代码:A 文章序列号:1674-9324(201 3) 51-0198-02

  一、简介

  我们医院的信息系统网络和公​​共网络都采取了严格的物理隔离措施,内部和外部网络之间的数据访问是通过网守来实现的。医院在内部网中建立了内部网站,用于发布诸如医院新闻和通知之类的信息。信息系统用户只能浏览内部网站提供的医院新闻,而不能浏览公共网络信息。随着医院的不断发展和互联网的普及,临床人员通过网络渴望通过信息系统网络了解他们关心的国家的时事,新闻,政策和法规。使用信息技术消除“信息孤岛”并为临床医生和医院经理提供更多服务

  二、方案选择

  要实现上述功能,有以下两种解决方案:

  方案1:使用现有的网闸将公共网络地址映射到Intranet,以解决用户浏览新闻的问题。

  选择2:在外部网络上构建自己的新闻平台,及时发布新闻信息,并通过网守将网站映射到内部网络。

  方案1的实现相对简单。实现上述功能仅需要简单的配置,但是存在缺点。主要原因是,一旦将公共网络网站上的内容映射到Intranet,用户就可以浏览网站信息中的所有内容,因为某些娱乐信息和无关信息无法被屏蔽,因此无法浏览受到控制,因此不采用该计划。

  第二个计划需要建立自己的新闻平台,实施起来比第一个计划要复杂得多,但是可以管理新闻信息以避免某些无关的信息,因此采用了第二个计划。根据第二个计划,问题在于,依靠人力逐项复制和输入新闻将不可避免地造成大量资源浪费,因此请考虑使用网页信息采集技术来实现新闻信息的批量获取和发布。网页信息采集技术是通过分析网页的HTML代码,使用广度优先搜索算法和增量存储算法来实现网络中超链接信息的实现,以实现连续自动分析链接,抓取文件,进行处理和处理的过程。保存数据。

  三、实施

  具体实施过程如下:

  1. cms选择:cms是Content Management System的缩写,表示“内容管理系统”。它具有许多基于模板的优秀设计,可以加快网站开发并降低开发成本。为了节省投资,比较了比较流行的“ empire cms”,“ PHP cms”,“ 织梦 cms”和其他免费的cms,我觉得织梦 cms易于使用,模板很多,尤其是后台的网页采集模块,最后选择了织梦内容管理系统(以下简称Dede cms)。

  2.为了构建服务器环境,我使用了Windows2003 Server IIS + PHP + MySQL模型进行构建。 PHP是Hypertext Preprocessor的缩写。 PHP是一种HTML嵌入式语言,一种在服务器端执行并嵌入HTML文档中的脚本语言。该语言的风格类似于C语言,并被广泛使用。现在,PHP的部署非常简单。您可以直接从http://下载5. 4. 0版本安装软件包,然后进行安装。

  MySQL是一个小型的关系数据库管理系统。由于网站的体积小,速度快,总拥有成本低,尤其是开放源代码的功能,因此许多人选择了MySQL作为网站数据库。从http:///下载并安装MySQL Installer 5. 5. 21版本以进行安装。为了确保数据库的安全性,在MySQL安装过程中应注意设置root用户密码。如果忘记了设置,则可以在安装系统后使用mysqladmin命令设置密码。安装完成后,测试PHP和MySQL服务是否正常。

  3.可以使用MySQL数据库管理,PhpMyAdmin或Navicat MySQL。 PhpMyAdmin的缺点是必须将其安装在Web服务器中,因此,如果没有适当的访问权限,其他用户可能会损坏SQL数据。 Navicat MySQL是功能强大的MySQL数据库服务器管理和开发工具。它可以与任何3. 21或更高版本的MySQL一起使用,并支持大多数最新的MySQL功能,包括触发器,存储过程,函数,事件,视图,管理用户等。对于专业开发人员而言,它不仅是一项非常前沿的技术,而且对于新手而言,它都是易于学习和使用的。因为它是本地服务器,请综合考虑,最后安装Navicat MySQL进行MySQL数据库管理。

  4.安装Dede cms并从http:///下载“ Dede cms V 5. 7”版本。请按照网站提供的教程进行安装,在安装过程中请注意以下问题:(1)数据,模板,上载,a或html目录,设置读写权限,非可执行权限。(2)无需设置特殊主题,建议删除特殊目录,生成HTML后需要能够删除special / index.php,然后将该目录设置为读写,不可执行权限。 3) include,member,plus,后台管理目录设置为可执行脚本,可读但不可写(如果安装了其他模块,则以相同的方式设置book,ask,company和group目录)。 ]安装完成后删除安装目录。

  5.设置网站列,并根据自己的需要设置不同的网站列。作者设置了“人民日报在线”,“卫生日报”和当地报纸等专栏。

  6.网页实现采集是此解决方案的核心部分。 Dede cms自己的网络采集模块也可以实现网页自动采集,但是采集相对较薄,无法采集同时释放多个网站,并且需要登录网站后台操作,操作过程繁琐,因此有必要找到一套可以实现自动批处理的软件。现在,Internet上的数据采集软件主要包括以下类型:“ 优采云”,“ Network Miner”,“ Youxun Software”,“ Network Magic”,“ Easy Mining”,“ 优采云”,“三种” People“”等等。以上均为付费软件,有免费版本可供试用,但功能受到限制。由于采集中的大多数都是纯静态页面,并且在尝试了许多采集之后,数据结构很简单软件,我最终选择了“ 优采云 采集器 V7免费版”。“ 优采云 采集器 V7”附带了Web发布模块的“ Dede cms 5. 7”版本,因此无需编写发布界面代码,直接运行“ 优采云 采集器”,在任务栏中添加需要采集网页的任务,编辑采集 URL规则,采集内容规则,发布内容设置等。实现网页采集的批量自动化和批量发布。在实际操作中,应注意以下几个方面:(1)在采集中涉及如何将远程图片采集发布到本地服务器。 采集内容规则,选择“添加相对地址,所有都是绝对地址”,因为Dede cms本身具有用于下载远程图片和资源的模块,该模块可以自动下载远程图片。由于使用的是免费版本,因此受到限制,因此我在这里走了很多弯路。 (2)由于采集的数量众多,因此不可避免会有重复文章。“ Dede cms”提供的重复文件检测功能可用于批量删除重复的文件。( 3)到优采云 采集器您可以批量发布文章。当您仍然需要登录到后台时,请使用一键更新网站功能来更新Web链接。(4)当编辑采集规则,应用过滤功能来过滤和调整冗余代码。

  四、讨论

  通过上述方法,建立了一个医院新闻平台,可以及时分批更新新闻网站,网络信息采集在信息采集方面节省了大量的人力和财力。资源整合。但是,某些网站采取了反采集措施,并且采集数据不可用。此外,由于使用了所有免费软件,因此目前仅实现图片的自动发布,没有更好的发布附件的方法,还需要进一步的改进。

  参考文献:

  [1]郑小松,袁继贤,徐明。校园网新闻及其管理[J]。计算机知识和技术(学术交流),2007年,[5)。

  [2]李强。关键词:医院内部,医院,医院,医院,医院,医院网站现代医院管理,2011,41(2)。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线