解决方案:网络信息采集技术介绍
优采云 发布时间: 2022-11-18 16:49解决方案:网络信息采集技术介绍
网络信息采集技术介绍学习内容1.网络信息采集概述2.网络信息采集技术的发展3.网络信息采集软件简介实训内容网络信息采集软件的使用学习目标掌握:网络信息资源采集的质量标准、途径与策略,网络检索自动化技术的发展,常用网络信息采集软件的使用方法。理解:网络信息采集的特点、原则,网络检索多媒体技术的应用及检索工具的智能化发了解:网络信息采集系统的应用前景,常用网络信息采集软件的种类。2.1网络信息采集概述网络信息采集是指从互联网共享服务资源中采集、处理和分析网络实体信息的过程。网络信息采集不仅包括对互联网公共实体信息的查询和存储,还包括对信息的归类、提取和解析,更重要的是在已采集信息的基础上分析数据,并将分析结果用于实际问题的解决。2.1.1网络信息资源采集的原则网络资源纷繁而复杂,为了避免网络信息资源采集的随意性、无计划性和盲目性,对网络资源的采集必须严格执行统一的采集标准,主要包括以下几个方面的原则:全面性原则:全面性原则是对网络信息采集网罗度的要求。对于所要采集的某方面的信息,要尽可能全面地采集,保证为采集到尽可能多的信息。针对性原则:指应依据用户的实际需要,有目的、有针对性、有重点、有选择地获取利用价值大的、符合需求的信息。
针对性原则能够提高信息采集的准确性和价值性。时效性原则:及时采集最新的、有效的信息,并定期对原有信息资源进行更新,方能使所保有的信息常新。这样既能够保证资源得到有效的保存,又能保证信息资源的高质量。选择性原则:采集时首先应对信息来源有所选择,重点采用信誉高、稳定性强的网站的信息。其次,资源采集所用的方法要有所选择,应用不同的信息采集方法所获得的信息往往不同,要善于通过多种途径进行信息的采集工作。再次,采集的信息应把质量放在首位,在保证质量的情况下兼顾数量。全程性原则:信息采集是一个*敏*感*词*的连续性的工作。信息资源必须持续不断地补充,进行长期的积累。这样才能反映这些资源的历史、发展状况、特点及规律,从而保证所采集网络信息采集技术介绍12的资源具有较高的使用价值。2.1.2网络信息资源采集的特点网络信息资源采集的特点主要表现为采集对象的多样化、采集方式的多元化以及采集手段的现代化。1.采集对象多样化传统的文献信息资源采集是以纸张为载体的印刷型文献为主,采集种类单一。而在网络环境下,各种各样名目繁多的电子文献和网络文献层出不穷,文献信息资源的种类呈现出多样化发展的趋势,文献信息资源的采集种类不仅包括传统的印刷型文献(如各类纸质型图书、期刊、报刊等),还包括各类电子文献(如电子图书、电子报刊、计算机软件等)和各类网上信息资源(即以数据库和网络为基础,通过联机系统或互联网向用户提供的文献信息)。
2.采集方式多元化传统的文献信息资源采集主要是根据需要,通过订单向出版社或书商订购或直接到书店选书,采集方式比较单一。而在网络环境下,由于信息存储、传输和再现发生了变化,文献信息资源的出版发行渠道变得更加复杂多样,人们采集文献信息资源的方式除了订购、现购、交换、接受赠送等传统方式外,还包括入网、联机使用、租用、免费获取等方式,采集方式呈现出多元化的趋势。3.采集手段现代化传统的文献信息资源采集,主要是以手工操作的方式进行,程序复杂、烦琐,不但花费大量的时间,而且容易出现差错。网络环境下的文献信息资源的采集实现了现代化、电子化和网络化,用先进的计算机技术可以从事查重、打印订单、统计、验收等工作,不仅速度快、效率高,而且不容易出现差错。另外,现代化的采集工具不仅提高了工作质量和工作效率,也节约了采集人员的时间和精力,使他们能够有足够的精力了解、掌握、研究文献信息资源方面的出版动态,保证文献信息资源的采集质量不断提高。2.1.3网络信息资源采集的质量标准严格的资源采集标准是信息资源可靠性的关键保障之一。可以从内容和形式两个方面对网络信息资源的质量进行评价。1.内容标准内容标准主要包括权威性、实用性、准确性、实效性、独特性、全面性等。
权威性:信息发布者是学术权威或者是有影响的学术机构,专业性网站评价机构对其有较好的评价结果,资源在本领域有一定知名度与学术号召力,得到本领域相当数量专业学者的公认。实用性:广告所占比例低,对信息进行了深度揭示,包括与其他外部信息的链接,对链接列表中的资源有注释说明。准确性:资源内容基本覆盖资源标题所言范畴,内容客观,信息(包括引用信息)准确可靠,语法和拼写错误很少甚至是没有,转载的内容有来源说明,链接有效性高。时效性:资源内容反映学科的最新发展,近期内进行过内容更新且注明了最后更新日期。13独特性:资源收录信息基本上是其他网络资源不具有的,网站上的内容主要为原创信息而非转载或指向其他网站的链接。全面性:资源内容收录了该领域的尽可能全的信息,资源来源渠道多样化。2.形式标准形式标准主要从三个方面去衡量,即资源的组织与利用方式、资源的接入条件、网站的页面设计。资源的组织与利用方式:包括资源的分类与组织是否科学、合理,浏览导航结构是否清晰、易用,网站资源是否具有供用户检索的搜索引擎,搜索引擎是否允许逻辑运算,搜索结果能否按相关度排序等。资源的接入条件:资源的接入是否便利,对用户的硬件和软件是否有特别的要求(比如安装插件或特殊软件),是否有知识产权方面的限制条件,是否需要注册才能访问,资源接入时反应是否快捷。
网站的页面设计:用户界面是否友好,页面是否整洁、柔和、协调、美观,网页各部分的位置关系和所占比例是否合适,是否具有准确的站点导航图。2.1.4网络信息资源采集的途径与策略1.网络信息资源采集的途径目前流行的采集技术主要是人工采集、网站系统抓取以及定制信息等。(1)人工采集人工采集是通常的网络信息采集方式。在现在的互联网世界里,用户接触最多的网络信息是以Web页面形式存在的。另外,电子邮件、FTP、BBS、电子论坛、新闻组也是互联网上获取信息的常见渠道。以学科信息为例,常见的人工获取网络信息的主要方式有:通过相关领域的学科主题指南或学科信息门户进行搜索:学科主题指南一般是由学会、大学、研究所和图书馆等学术团体和机构编制的网络学科资源导航目录。学科主题指南经过专业人士的加工和组织,所含的信息切合主题,实用价值较高。使用搜索引擎采集信息:搜索引擎是最常用的搜索相关信息的工具,使用搜索引擎可采用两种方法:一是利用关键词来检索,二是通过学科分类体系来查找。专业搜索引擎是查找网上某种信息的检索工具。利用专业搜索引擎所查找出来的信息具有学术性强、质量高等优利用专业网站查找:专业网站是获取相关学科信息的一个捷径,它提供与学科有关的电子出版物、专利、标准、会议和专业数据库等信息。
跟踪综合性门户的相关栏目:许多综合性门户都设置有一些学科专业栏目,并定期更新和发布一些重要学科信息,也具有很好的参考价值。跟踪相关的重要国际组织或机构的网站:重要国际组织或机构的网站本身就是待收录的高质量资源,并且质量越高的网站所给出的相关链接质量也可能越高。这些链接往往已经是经过专业人员选择的结果,需要纳入跟踪和搜索的范围。 了解相关学科领域的专家并搜寻他们的个人网站:这些网站本身或者其中给出的链接列 网络信息采集技术介绍14 表都可能是高质量的资源。 搜索和加入相关领域的重要主题性邮件列表:相关领域的重要主题性邮件列表大都以免 费订阅的方式将其更新、公告或出版物发送给订阅者,也是一种很有用的信息源。 上面所介绍的通过 IE 浏览器浏览 Web 页面,通过 Outlook 收发电子邮件,通过登陆 FTP 服务器上下载资料等等都是利用客户端软件手工链接到信息源去获取信息,属于人工采 集。这种采集方法有一个共同点:用户手工键入一个URL 或电子邮件地址,这些客户端软件 就链接到信息源,用户可以从信息源上获取所需信息。 (2)采集器自动抓取(信息采集技术) 随着互联网的迅速发展,仅仅依靠人工搜集、整理信息已愈来愈不能满足实际需要。
于 是人们开始探索新的信息获取方式,采集技术和推送技术就是应这种需求而产生的。 信息采集技术是目前时兴的一种信息获取方式。信息采集技术是在用户设定某些信息源 的某类信息后,采集器就自动地定期从这些信息源中取出用户所需的最新信息。这是一种定 向采集和定题采集相结合的主动的、跟踪式的多向采集,它的特点是获取信息主动、灵活。 资料:采集器自动抓取的优缺点 利用采集技术的优点是:用户自己可以设置信息源和所需信息类型;具有信息自动 化、本地化、集成化、最新化的特点。信息自动化是指用户不必一个一个的去各个信息源去 取信息;信息本地化是指用户不必到远程信息源去取信息,采集器已经把用户所要的信息采 到本地了;信息集成化是指采集器可以一次性把各个信息源的同类信息都采过来;信息最新 化则是指采集器采过来的都是最新信息,用户不再需要从信息源的新旧信息中分辨出新信息 了。采集技术在定向采集和定题采集、主动采集、跟踪采集等方面都较推送技术有明显的 优势,另外在个性化方面也是推送技术无法比拟的。但采集技术也有它的缺点,那就是所获 取的信息都是原创信息,还需要进行加工。 (3)定制信息(推送技术) 虽然在信息处理系统中,信息推送属于信息服务提供的手段。
但从需要获取信息的用户 角度来看,接受信息服务也是一种获取信息的方式。因此信息推送也是一种信息获取技术。 这种方式有点类似传统的广播,有人称它为“网络广播”。网络公司通过一定的技术标准或 协议,从网上的信息源或信息制作商获取信息,经过加工之后,通过固定的频道向用户发送 信息。这种方式的特点是用户获取信息比较被动,只能定制自己的频道,信息的来源以及信 息的具体内容往往不能灵活地控制。 资料:定制信息的优缺点 通过推送技术获取信息的优点主要有:可以定制自己所需的信息;自己不必过问信 息从哪里得到;接受的信息都是推送服务提供者从信息源获取的、经过加工的有效信息。 通过推送技术获取信息的缺点是:用户定制的选择空间是有限的;虽然用户可以中止或 更改所要的服务,但是被动的和不方便的;目前多数推送服务提供者只推送信息的主题, 15 具体的内容还要用户去信息源去取。 2.网络信息资源采集的策略 网络信息资源采集的策略主要有以下几种: (1)限制采集的深度:从采集深度考虑,通常情况下,如果用户通过IE 浏览器看新闻 的话,从首页开始,最多点击三层,就可以看到所需的所有新闻内容。同样的道理,采集器 只要采集三层就能得到各个具体的新闻内容,而没有必要采集更深的层次。
(2)限制某些链接:从采集广度考虑,对于那些大家都不感兴趣的链接,完全可以设 定不采这些链接,这样就大大地减小了采集工作量,从而也大大地减少了过滤的工作量。这 是限制采集广度的一个强有力的手段。 (3)限制搜索跳转:作为专业搜索引擎,要采集的信息资源通常集中在几个固定的初 始网站内,这样就不希望网站采集器跳转到其它的网站。 (4)限制采集的文件类型:如果用户只想采集或者不想采集具有某些扩展名的文件, 就可以对采集的文件类型进行规定或限制。 (5)采集或不采集某些目录下的文件。用户在设置这样的过滤策略时,必须保证所需 的信息在这样的过滤策略下能够获取,这一点要尤为注意。因为,这样的设置有可能断了由 首页到所需页面的链接,从而取不到所需信息。 除以上策略外,还可过滤旧的信息、限制采集文件的最大长度、限制站点采集的最大页 数等等。 2.2 网络信息采集技术的发展 信息采集技术的发展以计算机技术、电子技术、网络技术、多媒体技术的发展为依托, 逐步向全球网络化、全自动化、智能化、*敏*感*词*化、家庭化和个人化的方向发展。随着智能 科学研究的进展,模拟人脑认知和思维过程的新概念计算机将会问世,这为信息采集技术的 发展指明了方向。
2.2.1 网络信息检索技术基础 网络信息检索工具最早产生于 1994 年,首个中文 WWW 网络检索系统 Goyoyo 1997年在香港问世。进入21 世纪后,网络信息检索技术不断深入发展,取得了更大的进步。 1.资源定位检索技术 互联网是以TCP/IP(传输控制协议/互联网协议)和HTTP(超文本传送协议)为核心而发展 起来的。URL(Uniform Resource Locator),俗称网址,是描述网络信息资源的字符串——统 一资源定位符。它包括传输协议、信息资源的主机IP 地址和主机目录及文件名的具体地址三 个部分。网络数据库、网上出版物、网络机构等有固定的URL。联机数据库检索中心,期刊、 报纸等电子出版物,图书馆、高校、企业、政府等机构都有唯一明确的网址。利用网络浏览 器(如IE)查找网址,可以快捷、方便地获得针对性极强的“对口”网络信息。 2.“超链接”搜索技术 Web 信息以超文本链接方式组织,基本组织单元是信息节点而不是字符串,信息节点之 网络信息采集技术介绍16 间通过链接进行联系。超链接是网页必不可少的一个元素,同一主题或相关的信息因超级链 接构成了庞大的无形的跳跃式的信息网。
超文本信息检索技术,以超文本信息节点之间的多 种链接关系为基础,根据思维联想或查找信息的需要,通过链接从一个信息节点转到另一个 信息节点。人们可以根据它顺藤摸瓜,在网上自由地浏览信息,边浏览点击边分析筛选,一 步一步根据链接跳转查阅,直至获得令人满意的结果。 3.网络搜索引擎技术 搜索引擎( Search Engine),也称导航站点。搜索引擎技术集中体现在四个方面:访问、 阅读、整理Web 信息的信息采集,建立收录关键信息的索引数据库,根据用户请求查找索引 数据库相关文档的搜索软件,以及为用户提供可视化的查询输入和结果输出界面的用户接口。 目前,实现网络信息检索的搜索引擎技术可以分为两类,即网站分类目录技术和全文索引检 索技术。 4.web 挖掘技术 web 挖掘技术是从www 及其相关的资源和行为中抽取有用的模式和隐含信息,利用web 技术中的文本总结技术,可以从文档中抽取出关键信息,以简洁的形式对web 文档的信息进 行摘要或表示,使用户大致了解web 文档的内容,对其相关性进行取舍。 除以上技术外,知识发现技术、通用信息检索技术、自然语言处理技术等也有了很大的 发展。 2.2.2 网络信息采集技术发展趋势 随着计算机及通讯技术的发展,网络信息采集技术也在不断发展。
网络信息采集技术的 发展趋势主要表现在以下几方面: 1.检索工具的多语种化 多语种检索即提供多语种的检索环境供检索者选择,系统按指定的语种进行检索并输出 检索结果。随着各地上网人数的不断增多,各种语言的网站也在不断增长,语言障碍使人们 不能充分利用网上信息资源。跨语言检索系统仍然在摸索中,许多搜索引擎也在构造跨语言 搜索引擎来解决这个问题。建立跨语言检索系统要涉及到语言学、情报学、计算机科学等多 门学科知识,是一个综合性能强富有挑战性的研究领域。 2.检索工具的综合化和专业化 从内容与提供信息的深度上看,网络检索工具分别向综合化与专业化两个方向发展。综 合性的检索工具要求面向一切学科,跨越所有领域,提供全面的信息。另一方面,由于有些 用户对所需信息的深度、内容的精确性和相关性要求较高,综合性的检索工具往往不能满足 专业用户的需求。为了提高检索质量,专业网络检索工具必须面向特定的专业领域,满足专 业用户的信息需求。 3.检索寻址的内容化 基于内容的检索(Content Based Retrieval,CBR),是指根据媒体对象的语义、特征进 行检索,如图像中的颜色、纹理、形状,视频中的镜头、场景、镜头的运动,声音中的音调、 响度、音色等。
利用多媒体信息分析处理程序,对其内容进行全面准确的标引,建立“内容 17 —对象”关系型索引多媒体数据库。检索时计算机程序自动获取用户查询内容,然后与多媒 体索引库匹配并提供内容完全一致的检索结果。 4.检索工具的智能化 智能检索技术就是采用人工智能进行信息检索的技术。它可以模拟人脑的思维方式,分 析用户以自然语言表达的检索请求,自动形成检索策略进行智能、快速、高效的信息检索。 智能检索技术主要体现在语义理解、知识管理和知识检索三个方面。它利用语义分析模块自 动智能分词,进行用户请求和知识库“数据”的语义理解,最终把知识库中匹配的信息筛选、 整序后提供给用户。 总之,网络信息检索不受时空限制,检索速度快,检索功能强大。智能化、知识化、多 语种化等多途径一体化网络信息检索技术,为人们跨越信息时空描绘了波澜壮阔的蓝图。 2.2.3 网络信息采集系统的应用前景 1.网络信息采集系统概述 网络信息采集系统是一个汇集了各种网络信息采集技术的计算机程序集成系统,其最终 目标是给广大读者提供网络信息资源服务,整个过程经过网络信息采集、整合、保存和服务 四个步骤,其流程图如图2.1所示。 网络信息采集是基于网络信息采集系统自 动完成的。
网络信息采集系统首先按照用户指 定的信息或主题,调用各种搜索引擎进行网页 搜索和数据挖掘,将采集的信息经过滤等处理 过程剔除无关信息,从而完成网络信息资源的 “采集”;然后通过计算机自动排重等处理过 程剔除重复信息,再根据不同类别或主题自动 进行信息的分类,从而完成网络信息的“整合”; 分类整合后的网络信息采用元数据方案进行编 目,并采用数据压缩、解压及数据传输技术实 现本地化的海量数据存储,从而完成网络信息的“保存”;经过编目组织的网络信息正式发 布后,即可通过检索对读者实现网络信息资源的“服务”。 名词术语:元数据 元数据最本质、最抽象的定义为:data about data (关于数据的数据)。它是一种广泛 存在的现象,在许多顶域有其具体的定义和应用。在图书馆与信息界,元数据被定义为:提 供关于信息资源或数据的一种结构化的数据,是对信息资源的结构化的描述。其作用为:描 述信息资源或数据本身的特征和属性,规定数字化信息的组织,具有定位、发现、证明、评 估、选择等功能。 2.网络信息采集系统的应用前景 网络信息采集系统具有广阔的应用前景,可以广泛地用于以下方面: 网络信息采集技术介绍18 (1)数字图书馆建设 建设现代化数字图书馆的一个核心问题就是网络信息资源的采集和保存问题。
在当今这 个信息爆炸的时代,如果不能实现网络信息资源的自动采集和保存,那么建设数字图书馆就 是一句空言。网络信息采集系统可以自动地采集网络信息资源,并将其分门别类地存入各个 主题数据库,从而可以为构建学科门户网站打下基础。 企业情报采集信息化时代,一个企业若要在行业中立足并取得优势地位,离不开对政府部门的相关政 策以及对竞争对手行动的跟踪与调查。网络信息采集系统可以根据企业自己的需求,自动地 为企业采集相关情报,并提出预警分析等。这样,企业就可以对政府有关的政策导向和对手 的动向了如指掌,从而制定正确的企业运行战略,并最终在竞争中取胜。 知识信息积累对于任何提供信息服务的部门而言,如何获取大量的信息都是一个相当棘手的问题。网 络信息采集系统可以自动地进行网络信息资料的采集,并对信息进行分类处理,最终形成知 识信息的积累。 个性化信息采集某些专业用户(如某个领域的科技人员等)对信息的需求是非常特殊和专业的,网络信息 采集系统可以根据他们的个人兴趣为他们进行个性化专题的自动采集,为他们提供其所在领 域的最新信息。 总之,网络信息采集系统作为网络信息采集工具有着很好的应用前景。 2.3 网络信息采集软件简介 互联网为我们提供了海量的信息,当我们需要某些信息的时候,就要直接登录网站或是 通过搜索引擎来进行查找,这样操作非常麻烦。
如果能够把自己需要的信息全部下载到本地, 就大大方便了用户操作,网络信息采集软件就是帮助用户解决这一问题的。这类软件一般都 是集数据采集及管理为一体的软件,可以帮助用户有针对性地下载自己需要的数据。 2.3.1 网络信息采集软件概述 网络信息采集软件是进行将非结构化的信息从大量的网页中抽取出来保存到结构化的数 据库中的过程的软件。无论是公司、企业还是个人,基于各种目的,都需要从网络中采集信 息,然而,从浩如烟海的网络中采集到自己需要的信息实在是需要耗费太多的时间与精力, 信息采集软件的出现使用户获得了解脱。 信息采集软件的开发者从用户角度出发,都具有任务管理、信息采集、数据管理、数据 发布等方面的功能。这类软件一般都有比较便捷的任务管理功能,可以随意添加、修改任务, 都支持批量添加任务;在信息采集方面都可以通过设置实现从网络自动采集信息,显得比较 人性化和智能化;在数据管理上各有千秋,一般都支持目前流行的主流数据库,都有很方便、 很智能化的数据发布功能。 19 目前市场上的信息采集软件很多,质量也良莠不齐,比较常用的网络信息采集软件主要 有网络信息采集专家、网站万能信息采集器以及网络信息采集大师等。
总之,网络信息采集软件可以帮助用户有效、快速地进行网站抓取采集、网页信息下载、 情报采集等工作,提高用户以及用户所在组织的生产力和情报获得能力。相信在这类软件的 帮忙下,网络信息的采集会更加自动化、智能化,网站的更新和维护会变得更简单。 资料:常用网络信息采集软件简介 (1)网络信息采集专家 网络信息采集专家可以将网络信息按规则多任务,多线程采集保存到数据库中。主要功 能有网站登录、信息自动识别、网页正文提取、采集结果分类、预留编程接口、过滤重复内 容等。可以通过设置“计划执行采集任务”实现信息采集自动化。可以将采集的数据储存为 Micsoft Access、SQL Server 2000、MySQL、Web 等类型的数据库,并支持数据信息的发布。 (2)网站万能信息采集器 网站万能信息采集器具有信息采集添加全自动、网站登录、文件自动下载和N 级页面采 集等四大特色功能。采集器任务管理很方便,新建任务、载入任务、修改任务、删除任务, 任务开始、暂停、继续等功能应有尽有,也支持批量添加任务。在软件启动设置中可以设置 定时自动抓取网络信息,实现采集自动化。采集器可以将采集的信息直接发布到自己的数据 库中,并且支持任意数据库类型,兼容性相当不错。
(3)网络信息采集大师 网络信息采集大师功能强大,采集速度快,信息准确。任务管理非常方便,不仅可以随 意添加、修改任务,而且可以通过设置,让任务随软件自动运行或在某个时间运行,甚至可 以设置运行次数或循环运行,实现信息采集自动化。网络信息采集大师支持目前流行的 SqlServer、Access、Oracel、DB2、Mysql 等类型的数据库,可以发布数据到网站,还可以 将采集的信息直接导出为文本文件或Excel 格式的文件。 2.3.2 网络信息采集大师(NetGet)的使 在各类信息采集软件中,网络信息采集大师(NetGet)是其中比较出色的一款软件, 其功能强大,使用也较为方便。 1.软件主界面 软件安装完成后运行,可以看到如图 2.2 所示的软件主界面及悬浮窗口。软件主 界面非常简洁。软件最顶端是菜单栏及工具 栏,工具栏提供了最常用的一些工具按钮, 为用户操作软件提供了方便。左侧是分类数 据区,对数据进行分类,便于管理。右侧上 网络信息采集技术介绍20 半部分是任务区,在这里列出了正在运行的任务。接下来是采集数据区,在这里显示正在运 行任务的数据。 2.采集数据 使用网络信息采集大师采集网站上的信息非常简单,只要在建立任务时填写上要采集的 网址,然后按自己的要求来设置采集规则即可。
具体操作如下: (1)任务概述 单击工具栏上的“新建”按钮,出现如图2.3 所示的“任务概述”对话框。在该窗口中 对任务概述进行设置。设置好任务名称、网站首页、类别、保存位置、文件名、任务类型及 自动保存采集数据时间等,建立一个新的任务。设置好后,单击“下一步”按钮,进入采集 规则设置。 采集规则对话框(2)采集规则 在如图2.4 所示的采集规则对话框中,设置任务的采集规则。此页数据的填写较为关键, 直接关系到数据能否采集。 起始地址:要采集页面的开始地址。也可以是一个本地文件,如 c:\list.txt,该文本文件 里是采集页面的地址集合。 导航关键字:可连接到下一页的关键字符串。一般来说采集的信息是多页的,如 等等,页码数字前面的字符串page 就是导航关键字。若不添 该项,则只采集起始地址的数据。 采集页数范围:采集哪一页到哪一页之间的数据。若不添该项则只采集起始地址的数据。 增量:默认为1。一般来说页码变化是连续的。 采集网址标识:需要抓取数据的页面URL 地址关键字。若采集本级页面,为空即可。 过滤网址标识:不打算采集的页面地址里的关键字,一般情况下不用。
21 关联网址标识:一次采集多个页面的信息组合成一条数据。在此填写关联网址的关键字。 注意该标识符在整个网页源码中具有唯一性,可以组合URL 前后的字符串来标识。 采集数据页收录分页:一般用来采集新闻,文章等一篇文章用多个页面来显示的情况, 关键字就是分页地址里的关键字符串。 采集关键字替换:一般不用,为了提高采集效率设置。目的是把某些 URL 地址直接替 换成自己想要采集数据的URL 地址。 设置好后,单击“下一步”按钮,进入数据提取规则的设置。 修改任务设置窗口(3)数据提取规则 在如图2.5 所示的数据提取规则对话框中,设置数据提取规则。 本页提取多行同类数据:比如只采集文章的标题列表等。 中文名称:自己随便命名,比如“姓名”、“联系地址”等。 前标识符:确定一个数据值的前符号。在源文件里查找。(先在软件的浏览器里打开要 分析的网页,然后点“源文件”按钮,可显示要分析的源文件数据。注意不要直接用IE 浏览 器得到网页源代码,一定要用软件的“源文件”按钮。) 后标识符:确定一个数据值的后符号。参考前标识符的解释。 信息类型:其中有几种最为常用。URL 类型:当一个数据项被设置成URL 类型时,假如 采集到地址不完整,会自动格式化成一个完整的地址。
附加类型:采集的信息里,有循环的, 有不循环的,这时不参与循环的要设置为附加类型。常量:有时采集的数据项里,有一个或 多个数据项不需要采集,要和采集结果在一起,把这些数据项设置为常量。 提取数据页的全部数据作为一个数据列:把采集的数据整个输出。一般适用于数据很难 拆分的情况。若使用该项,下面的不用再设置。 网络信息采集技术介绍22 保存对应的URL:有时候URL 能标识一行具体的数据,这样数据导入数据库后,用户能 很方便地分辨。 区分大小写:采集英文的数据,可选中此项,因为中文没有大小写之分(采集新闻最好 选中该项,有些图片地址对大小写敏感)。 自动截取字串:使用默认即可。 保留html 代码:默认情况下,采集到的html 代码中,< >之间的部分会自动清除,选中 该项后可保留代码。该选项是针对每个数据项的,有比较大的灵活性。 任务设置完成后,只要在任务分类区选择任务名称,然后直接单击工具栏上的“运行” 按钮,即可按设定好的规则采集数据到本地。 3.任务管理 如果想修改任务的采集规则,只要选择要修改的任务,然后双击即可打开如图2.6 所示 的任务修改窗口,在这里可以对任务概述、采集规则及数据提取规则进行修改设置。
另*敏*感*词*,比如 1-1000 (2)输出为Excel单击工具栏中的“Excel”按钮,出现“数据输出到 Excel”对话框,该对话框与“数据输出到文本”对话框基 本一致。
注意:导出Excel 时不要对Excel 文件有任何操 作(点击,调整宽度等),否则可能导致异常;若没任何 操作情况下仍有异常,一般重装Office 软件可得到彻底解 (3)输出到数据库单击工具栏中的“数据库”按钮,出现“数据输出到 数据库”对话框。该对话框与“数据输出到文本”基本一 致。输出到数据库时,窗口的上半部分只有“输出行范围”有效,列标题不会导入到数据库。 窗口的下半部分,即标志“数据库”的部分需要重点设置。一般需要进行以下步骤: 配置数据库连接:目前完整测试的数据库有Access、Sqlserver、Oracle、MySql。 选择导入哪个表:假如已经配置好了数据库连接,点“刷新”,可得到连接数据库的表, 选择一个表导入。或者使用新表,勾选“使用新表”,添入表名称,可自动创建表。 假如是导入数据库里已经存在的表,并且表里的字段个数(或叫列个数)与采集数据项 的个数完全一致,并且字段长度可容纳采集的数据,可直接点“确定”,数据会自动导入数 据库。假如不能满足这两个条件(即字段和采集项个数一一对应,字段长度足够长),导入 数据库会发生异常;字段长度不够可到数据库里更改字段长度;不是一一对应的,单击“定 义数据接口”,在“数据列接口设置”对话框中设置哪个数据项对应哪个字段,还可设置不 可重复数据列(发现重复的数据自动过滤掉),非常方便。
总之,使用网络信息采集大师采集的信息可以直接导出为文本文件或是Excel 格式的文 件,即使是数据库文件也能够方便地导出,方便了用户的操作,同时能够直接把采集的数据 导入数据库,数据查询功能大大方便了用户对数据库内容的搜索。 2.4 网络信息采集技术介绍24 2.4.1 实训1:网络信息采集软件的使用 操作过程:(1)从网上下载、安装网络信息采集大师(NetGet)。 (2)运行网络信息采集大师(NetGet),了解其界面构成。 (3)采集数据:设置一个新任务,如采集北京五星级酒店的信息。 (4)任务管理:对设置好任务的规则进行修改,以更加完善任务要求。 (5)采集数据管理:使用“运行”命令采集数据,将采集到的数据输出到文本。 本章小结 本章学习的重点是网络信息采集软件的使用方法。学习者应对网络信息采集系统的基本 技术及应用前景有一个基本的了解,熟悉几种常用的网络信息采集软件,能够熟练掌握其中 一种信息采集软件的使用方法,能够利用信息采集软件采集到自己所需要的信息。 另外,学习者应理解网络信息采集的特点及其原则,掌握网络信息资源采集中内容与形 式上的标准,熟悉通常的网络信息采集方式以及采集技术、推送技术的运用。
学习者还应掌 握网络信息资源采集的策略,能够根据自己的需求制定富有成效的策略。 本章的教学难点是网络信息采集技术的发展。学习者应掌握网络检索自动化技术的发展 状况,对“超链接”搜索技术、网络搜索引擎技术、Web 挖掘技术等有一定的认识,同时, 理解网络信息采集技术的发展趋势,认识多媒体化、多语种检索技术、检索工具的综合化和 专业化、基于内容的检索技术、检索工具智能化等。 在学习本章时,学生必须要进行上机实践,必须要掌握一种网络信息采集软件的使用方 法。另外,也可以通过教学录像、IP 课件进行学习。 思考与练习 1.选择题 (1)在采集网络信息时,发现信息陈旧、死链接的网站,应及时予以剔除,这是贯彻 )的原则。A.针对性 B.全程性 C.时效性 D.选择性 (2)下列关于信息推送技术的叙述,正确的是( A.用户获取信息比较主动B.信息的来源以及信息的具体内容往往不能灵活地控制 C.信息推送也是一种信息获取技术 D.用户自己可以设置信息源和所需信息类型 25 (3)下列关于自然语言的叙述,错误的是( A.自然语言的词义模糊、词间关系不清B.自然语言标引错误少、准确度高、时效性强 C.自然语言是受控语言,除语法的限制外其它束缚亦很多 D.使用自然语言检索,用户不必考虑检索规则,信息检索极其方便 (4)网络信息采集软件具有( )功能。
A.任务管理 B.数据管理 C.信息采集 D.数据发布 (5)使用网络信息采集大师(NetGet)输出数据时,可以把采集数据区中的所有数据 导出为( A.文本B.Excel C.数据库 D.页面 2.判断题 (1)若要进行定题采集,采集技术较推送技术有明显的优势, (2)限制某些链接是限制采集广度的一个强有力的手段。 (3)Web 信息以超文本链接方式组织,基本组织单元是字符串。 (4)智能检索技术主要体现在语义理解、知识管理和知识检索三个方面。 (5)网络信息采集大师对任务的管理非常方便,可以按要求随意修改任务设置。 3.思考题 (1)网络信息采集的特点及原则是什么? (2)试述网络信息资源采集的质量标准。 (3)网络信息资源采集的途径与策略有哪些? (4)简述网络信息采集技术的现状。 (5)简析网络检索技术的发展趋势。
汇总:如何才能更快更全地收集论文数据?
当谈到数据采集的话题时,我很有发言权。在刚刚过去的毕业季,我有幸为众多同学提供了论文数据查询服务。论文数据主要分为三类:企业数据(尤其是上市公司数据)、统计年鉴数据和问卷数据。我们能提供的主要是上市公司数据和统计年鉴数据。如果是问卷数据,学生还是需要提前设计问卷,自己完成数据采集。
不过,无论是通过资料搜索还是手动采集,这都只是资料采集渠道的问题。要真正实现更快更全面的论文数据采集,需要注意以下几点。《数据可获得性》论文的题目已经确定了,按照题目采集数据的时候,发现根本找不到需要查询的数据指标,可惜没有数据怎么写论文呢?我想问为什么选择论文题目 考虑是否有数据,解决这个问题其实很简单,参考与你题目相关的论文,一般论文都会说明数据来源,搜索根据他们的数据源的数据。
如果你找不到某些主题的相关文献,很可能这个主题在理论上或实证分析上不可行,或者数据难以采集,所以不要给自己挖坑。
更糟糕的是,论文初稿快完成了。拿给老师看后,我要求加上实证分析,然后赶紧开始采集数据。事实证明,规范性论文很难匹配合适的数据变量进行测试。
另*敏*感*词*的确定数据范围的大小也意味着数据量。对于以上市公司数据为样本的论文,一般来说样本量越大越容易显着。如果您要手动采集某个可变数据,您可以将数据范围锁定到某个行业,这样可以减少手动采集的工作量。对于以统计年鉴数据为样本的论文,数据范围主要根据数据的可用性和数据丢失的程度来确定。当然,你也可以说论文的题目决定了数据范围,但我想反问,没有数据更好。你论文的题目怎么样?