WEB页面信息采集技术
优采云 发布时间: 2020-08-26 17:36WEB页面信息采集技术
WEB页面信息采集技术 譬oHNoLoGWEB 页面信息采集技术 唐山职业技术学院山东莱芜063000摘要:为了满足用户实际须要,科学高效地跟踪获取互联网上的海量信息,WEB,/~ 息采集技术借助程序(采集器)自 动,定期地到用户设定的各个信息源去采集想要的个别类型的最新信息,荻取信息 主动灵活,真实可靠,全面系统,有计 划性和预见性,采集方式多样。但现有搜集技术和采集器还有待建立。 关键词:WEB 页面信息采集技术采集器 引言 在现今这个信息化社会,无论政府,企业还是个人对信息 都有强烈的需求,谁能更快更有效地获取最新,最准确,最全面 的信息,谁能够在竞争中抢占先机。随着互联网的迅速发展,人 们接触最多的信息是以web 页面方式存在的,仅《科学》杂志 1999 月的文章((WEB信息的可访问性》估计,全球网页已超 亿,有效数据超过9T,并且以每4个月翻一番的速率下降。 即我们面临一个信息爆燃,信息污染的时代。面对互联网上兼 具多样性和复杂性的海量信息,仅仅借助人工采集,整理来有 效跟踪最新信息动态似乎是不科学的和低效的,也不能满足实 际须要。于是人们开始探求新的信息获取方法,WEB 信息采集 技术应运而生,并且已成为当前热门的研究课题。
1。WEB 信息采集技术及其应遵守的几个原则 WEB 信息采集技术是指:利用程序手动,定期的到用户设 定的各个信息源去采集想要的个别类型的最新信息。它的特征 是获取信息主动,灵活。信息制做商和搜索引擎系统通常都用 此项技术获取信息。 信息获取应遵守下边几个原则:1)主动,及时原则:要主 动,及时发觉和捕捉各种信息。2)真实,可靠原则。3)针对需求 原则:要按照用户的需求,有重点,有选择地获取借助价值高的 信息。4)全面,系统原则。5)计划性原则。6)预见性原则:既要着 眼于现实需求,又要获取这些对将来发展有指导作用的预测性 信息。 2。信息采集目标与方式 般的,采集得到的应当是有效的信息,而有效的信息必须是有序化,矢量化和可实现增值的信息资源。有序化是指各 种方式和内容的信息必须是经过科学处理和加工而产生的可 以有效查找和借助的系统化信息。矢量化则要求加工后的信息 不但有高信息值,而且有流动的方向性,成为用户可以接受和 开发应用的信息流和数据源。 信息采集方法是指按照年度,季度计划,通过广泛开辟信 息来源,及时将信息搜集到手的基本技巧。包括: 1)定向搜集与定题搜集。定向搜集指在计划范围内,对某 学科,某一国别,某一特定信息尽可能全面,系统的搜集。
定题搜集是按照用户指定的范围或需求有针对性的进行搜集。 2)单向搜集与多向搜集。单向搜集表针对特定用户需求, 只通过一条渠道,向一个信息源进行搜集,针对性强。多向搜集 指针对特殊用户的特殊要求,广泛的多渠道进行搜集。 3)主动搜集与跟踪搜集。主动搜集针对需求或按照搜集人 员的预测,事先发挥主观能动性,赶在用户提出需求之前就着 手搜集工作。跟踪搜集指对有关信息源进行动态检测和跟踪。 3。基于采集器的WEB 信息采集技术 利用采集技术的应用程序称为采集器。根据用户具体设定 的信息源和具体的信息种类,采集器主动定期的从这种信息源 取出这类信息中的最新信息。 采集器的优点在于:用户自己可以设置信息源和所需信息 类型;信息自动化,本地化,集成化,最新化;(信息自动化是指 用户毋须挨个去信息源取信息;信息本地化是指用户毋须到远 程信息源取信息,采集器早已把用户所要的信息采集到本地 了;信息集成化是指采集器可以一次性把各个信息源的同类信 息都采集过来;信息最新化则是指采集器采集的都是最新信 息,用户不再须要从信息源的新旧信息中区分出新信息了。)在 定向搜集和定题搜集主动搜集,跟踪搜集等方面个性化较强。
目前市场上已有的采集器产品主要有:Websnatcher, Cutefip,BinaryNewsAssistant,webspider,FlashFXP websnatcher是一款奇特的web 网页下载管理器。可以用快 速下载来代替慢而繁琐的浏览器下载,如果对网路十分熟悉或 者喜欢在网路上找一些比较稀少的东西,这个工具是比较好的 选择。Websnatcher 可以用树状来显示一个网站上所有的链接, 就像在系统资源管理器里一样。还可以同时对多个站点和FfI'P 站进行操作下载。 Cuteftp 是一款ftpda 传,下载管理器。使用简单且太受欢迎。 支持断点续传,可下载或上传整个目录,并且不会因闲置过久 而被踢出站点。可以上载下载队列,覆盖和删掉整个目录等。 BinaryNewsAssistant 可以从Usenet 的新闻组中发送或接 收二进制的文件。实际上,在运行它的时侯只是得到一个二进 制的新闻组列表。BinaryAssistant 与其它类似的程序不同,容 易使用且界面简约。一旦选择了希望订阅的新闻组,程序将会 得到标题。简单的点击就可以下载和解码二进制文件到指定目 录,BinaryNewsAssistant 还可以处理多媒体文件,多重服务器 支持,定时下载等等。
它的缺点是没有外置的图片浏览工具。 4。结束语 方面,采集技术正在广泛的被采用,并且是可行的和有效的;另一方面,我们从里面那些产品可以看出一些共同的缺 2007,4 ANoMARKETProtel 电路设计中的程序优化 成都航空职业技术学院上海610021摘要:Protel99SE 作为一种电子辅助设计软件,其重要功能之一是进行电路原理图 的设计。本文从四个方面对电路 原理图的设计程序进行优化,从而达到有效而快捷地施行绘图工作的目的。 关键词:Protel99SE 电路原理图程序优化 1。引言 随着电子技术的急速发展,现代电子电路早已越来越复 杂,而计算机技术的发展则为电路辅助设计提供了一个完美的 平台。Protel 是ProtelTechnology 公司开发的功能强悍的电路 CAD 系列软件,是一套构建在Pc 环境下的EDA 电路集成设计 系统。Protel99SE 是目前应用较为广泛的一个版本,它的主要 功能模块有四个,电路原理图设计是其中之一,它同时是彩印 电路板设计的基础。电路原理图设计的优劣将直接影响到后续 工作,因此绘出一张正确的,能满足生产实际要求的电路图是 非常重要的。
对于电路原理图部份的设计而言,既要满足工作原理,又 要布局合理,美观漂亮,仅靠一道工序是很难完成的,它须要在 局部和整体之问互相协调,才能达到最佳疗效。在勾画原理图 时,如能正确掌握设计环节,运用一定的设计方法,做到设计程 序的优化,就可使绘图的质量和速率得到很大增强,下面分几 部分阐述。。 2。程序优化 2。1 充实器件库 1)准备好器件是优化设计程序,提高绘图速率的基础。 元件是构成电路的两大基本要素之一,准备好器件是绘图 工作快速进行的前提。Protel99SE 所提供的器件库收录了各类 常用及专用的器件,但我们在实际绘图时,常常发觉所须要的 些器件符号仍旧不能从器件库中得到,究其主要诱因,一是因为各类新型元器件不断出现,元件库里无法提供;二是因为 Protel99SE 提供的部份器件的符号与我国现行标准不符,如二 极管,三极管,电解电容等器件符号均存在这个问题,从而导致 使用上的不便。因此须要充实器件库,把须要的器件事先打算 好,便于随用随取。充实器件库的最佳途径是创建一个自己的 元件库,在库里创建原理图器件符号,以丰富设计者对各类元 件的需求。 2)创建原理图器件符号时要注意整体的协调性及易于连 创建原理图器件符号时在确保正确的前提下,要注意器件符号的大小与Protel 提供的库器件在大小上协调,使绘出的图 在整体上合理,美观;同时各引脚端点均对应在所设置网格的 交叉点上,便于器件的布局和布线。
3)充分利用Protel 提供的器件库,快速创建自己的器件符 Protel的器件库中收录有大量的器件,充分利用这种已有 的资源,将其更改和编辑,可快速创建自己的一部分器件符号。 对于器件库中的器件符号与现行标准不一致的这部份器件,对 其更改是十分便捷的,现以晶闸管为例说明,元件库里的二极 管符号为斗,而我国现行标准为廿,修改的方式是步入 元件库选择~MiscellaqneousDevices,lib 内,选中器件DIODE,点 击Eidt 健进行更改,双击晶闸管的三角形区域部份,在弹出的 对话框图(a)中,将"Draw"的选项除去即可,如图(b)所示。更好 的办法是在自己的原理图器件库中创建,将原理图器件库中的 元件符号复制到自己创建的器件库中,进行编辑和更改,修改 的方式同前,最后定义器件属性并保存即可。如果创建的器件 在器件库里没有提供,但有近似的器件符号,采用复制,修改和 编辑的办法也是很快的。 点,它们都不具备里面所讨论的信息自动化,集成化,最新化特 点,不具有跟踪的能力。 那么,目前,我们须要设计出这样的一种采集器:用户可以 设定多个信息源以及从每位信息源获取的信息类型,还包括其 他一些参数和过滤条件,采集器手动定期的从信息源取出用户 所需最新信息,同时过滤掉用户不需要的信息,并把同一类型 的信息集成到一起,进行归类。这正是我们如今努力的方向。 参考文献: 【l】曹加恒等。新一代多媒体技术与应用[M】。武汉大学出版社, 20o6。1。 【2]朱玉全等。数据挖掘技术[M]。东南大学出版社,2006。11。 2007/4