重庆理工大学毕业论文高等教育动态资讯收集查询系统的设计与实现
优采云 发布时间: 2021-08-09 00:53重庆理工大学毕业论文高等教育动态资讯收集查询系统的设计与实现
重庆工业大学毕业论文动态信息采集查询系统的设计与实现XXXXXXXXX学生姓名学号XXXXXXXXX导师职称XXX时间XXXXXXXXX目录TOC\o"1-4"\h\u HYPERLINK\ l "_Toc6004" 摘要 PAGEREF _Toc6004 I HYPERLINK \l "_Toc11371" 摘要 PAGEREF _Toc11371 II HYPERLINK \l "_Toc8114 "1 介绍 PAGEREF _Toc8114 1 HYPERLINK \l "_Toc82133PERL 项目背景\l "_Toc8213313PERL 项目背景1.2 *敏*感*词*研究现状 PAGEREF _Toc31321 1 HYPERLINK \l "_Toc21130" 1.3 研究目的 PAGEREF _Toc21130 2 HYPERLINK \l "_Toc26925" 1.4 论文组织结构 \l "_Toc21130" 1.3 论文的组织结构 \l "_Toc21130" 1.3 _Toc6096" 2. 开发技术和原理介绍 PAGEREF _Toc6096 4 HYPERLINK \l "_Toc946" 2.1 搜索引擎开发概述 PAGEREF _Toc946 4 HYPERLINK \l "_Toc10849" 2.1.1 搜索引擎介绍和devel@1 opment目标 PAGEREF _Toc10849 4 HYPERLINK \l "_Toc16961" 2.1.2 搜索引擎分类 PAGEREF _Toc16961 4 HYPERLINK \l "_Toc13830 "2.2 基本工作原理和技术分析 "_Toc16961" 2.1.2 搜索引擎分类 PAGEREF _Toc16961 4 HYPERLINK \l "_Toc13830 "2.2 基本工作原理和技术分析 "_Toc16961" 2.@k2193PAGEREF83 \Toc1919HYPERLINK K252.@ @ 1级的Web爬行PAGEREF _Toc19191 5 HYPERLINK \ L “_Toc5143” @ @@ K252. 2索引PAGEREF _Toc5143 8 HYPERLINK \ L “_Toc22217” @ @@ K252. 3搜索查询处理PAGEREF _Toc22217 10 HYPERLINK \升"_Toc21166" 3. 需求分析 PAGEREF _Toc21166 13 HYPERLINK \l "_Toc30849" 3.1 功能需求 PAGE _Toc30849 13 HYPERLINK \l " _Toc18998" 3.demand@1989 REF_Toc18998" REF_Toc18998 垂直搜索引擎@k381ocT9PER 高等教育 LINK 高等教育 308493.l "_Toc7290" 3.1.2 功能模块需求分析 PAGEREF _Toc7290 13 HYPERLINK \l "_Toc23737" 3.2 性能需求 PAGEREF _Toc23737 16 HYPERLINK \l "_Toc3914" 技术可行性分析@k319Toc38PAGE \l "_Toc5212" 4. 系统设计 PAGEREF _Toc5212 17 HYPER LINK \l "_Toc2757" 4.1 系统流程图 PAGEREF _Toc2757 17 HYPERLINK \l "_Toc17121" 4.2 软件结构及模块划分 PAGEREF _Toc17121 17 HYPERLINK \l "_Toc10@3" @k419T 程序设计流程HYPERLINK \l "_To*敏*感*词*659" 4.3.1 客户端程序流程设计 PAGEREF _To*敏*感*词*659 19 HYPERLINK \l "_Toc2558" 4.3.2 服务器端程序流程设计 PAGEREF _Toc2558 @19 HYPERLINK13k6T" @4 数据结构设计 PAGEREF _Toc13885 23 HYPERLINK \l "_Toc17678" 4.4.1 数据库端 PAGEREF _Toc17678 23 HYPERLINK \l "_Toc12962" 4.4.2 服务器端 oc1299T oc129REF_LINK299T 5.2.3 文件夹终端 PAGEREF _Toc23997 24 HYPERLINK \l "_Toc31506" 4.5 接口实现 PAGEREF _Toc31506 24 HYPERLINK \l "_Toc6290" 4.5.1 客户端接口\l "_Toc31506" 4.5 客户端接口: _Toc11077" 5.3.2 服务器端维护接口 PAGEREF _Toc11077 25 HYPERLINK \l "_Toc3717" 5. 系统实现 PAGEREF _Toc3717 27 HYPERLINK \l "_Toc15341" 5.1 接口实现 PAGEREF _Toc15341 27 HYPERLINK \l "_Toc29362" 5.1.1 客户端接口:PAGEREF _Toc29362 27 HYPERLINK \l "_Toc15341"@Tock1侧维护接口 PAGEREF _Toc1051 27 HYPERLINK \l "_Toc5795" 5.2 代码实现 PAGEREF _Toc5795 29 HYPERLINK \l "_To*敏*感*词*846" 5.2.1 网页爬虫实现代码 "PAGEREF _To*敏*感*词*807"0000000C 2.2 索引创建实现代码 PAGEREF _Toc10708 30 HYPERLINK \l "_Toc2943" 5.2. 3 查询模块实现代码 PAGEREF _Toc2943 30 HYPERLINK \l "_Toc22105" 6. System test \l "_Toc2943" 5.@k2943 " 6.1 搭建测试环境过程 PAGEREF _Toc15719 32 HYPERLINK \l "_Toc11227" 6.2 功能实现测试 PAGEREF _Toc11227 32 HYPERLINK \l "_Toc18010" 6.2.REF@1 网页数据爬取测试_Toc18010 32 HYPERLINK \l "_To*敏*感*词*924" 6.2.2 分词模块测试PAGE REF _To*敏*感*词*924 35 HYPERLINK \l "_Toc11686" 6.2.3 索引数据库创建模块测试 PAGEREF _Toc11686 35 HYPERLINK \l "_Toc6312" 6.2.4 搜索模块测试 PAGEREF _Toc6312 2.36 "1.Toc"概要 PAGEREF _Toc12438 37 HYPERLINK \l "_Toc1755" 感谢 PAGEREF _Toc1755 38 HYPERLINK \l "_Toc28430" 参考文献 PAGEREF _Toc28430 39 HYPERLINK \l "_Toc260280" PAGE 引自 _Toc260280 垂直搜索引擎 PAGE GET02080 的摘要 PAGE REF _Toc1755 38 HYPERLINK \l "_Toc28430"来自搜索引擎的发展从一开始就引起了人们和研究人员的关注。与传统搜索引擎相比,它具有更强的针对性、更明确的目的、更明显的目标人群和相关信息。更精确。
垂直搜索引擎是一种针对某个行业或职业的特定目标群体,目标明确的搜索引擎服务。深入提取相关专业方面的信息,更专业的分析。在查阅相关书籍和资料后,本文主要用于开发高等教育动态信息的垂直搜索引擎。系统使用网络爬虫从相关教育网站中提取高等教育相关信息,如中国教育网网站。其中,可以采用深度优先的Shark-Search算法,或者广度优先的PageRank算法。然后对提取的数据信息进行分析,然后建立索引,即倒排索引等。该系统最终实现了高等教育动态信息的采集和访问。主要有网页爬取、索引、关键词搜索等功能模块。本文首先介绍了该课题研究的背景和重要性,然后阐述了相关技术的原理。同时结合文章和自己的设计,开发了高等教育系统动态信息的集合。搜索引擎主要涉及网络爬虫、页面分析、索引等相关知识和算法结构。 关键词:高等教育垂直搜索引擎网络爬虫倒排索引信息爬取摘要垂直搜索引擎源于传统搜索引擎,从一开始就受到人们和学者的关注。它与传统搜索引擎相比,更具针对性,更针对性强,目标人群更明显,相关信息更准确。垂直搜索引擎是一种针对特定目标人群,为特定目标人群提供搜索引擎服务的行业或职业。深度提取及其相关专业信息, 专业分析。 查阅相关书籍资料后,本文主要是开发一个关于高等教育动态信息的垂直搜索引擎。该系统利用网络爬虫从相关教育网站中提取与高等教育相关的信息,如作为中国教育网作为一个网站。在此,我们可以深入了解t Shark-Search 算法,或广度优先 PageRank 算法。对数据进行分析后提取信息,然后建立索引,做倒排索引等。系统最终实现了高等教育动态信息的采集和访问。有网络爬虫,建立索引,关键词搜索以及其他功能模块。本文首先介绍了该课题的研究背景及其重要性,然后阐述了该技术的原理,同时结合文章及其自身的设计,开发了一个动态信息高等教育系统的集合。搜索引擎主要涉及网络爬虫、页面分析、索引建立等相关知识和算法结构。关键词:高等教育、垂直搜索引擎、网络爬虫、倒排索引、信息抓取。 PAGE \* MERGEFORMAT PAGE \* MERGEFORMAT 381 Introduction1.1 学科背景 随着互联网的飞速发展,互联网技术已经应用到普通人生活的方方面面,搜索引擎的应用尤为广泛。
最近15年,是搜索引擎爆发式快速发展的时期。搜索引擎的发展已经从最早的分类目录生成,经过文本检索和链接分析,发展到现在以用户为中心的生成。随着社会的发展,我们了解到,一个国家高等教育的发展也反映了其国际竞争力。因此,对高等教育动态信息的关注和研究越来越受到教育界的关注,大学的师生们也越来越关注与我有关的各种信息。因此,当每个用户被赋予相同的条目时,它不再能够满足他们的搜索要求。而且,一般的搜索引擎不可能保存和更新所有的动态信息。针对上述情况,就需要一个高等教育垂直搜索引擎,能够挖掘出更准确、更深入、更完整的学科信息,以满足学者、教师、大学生等受众。 1.2 *敏*感*词*研究现状 目前*敏*感*词*有很多垂直搜索引擎,但没有单一的高等教育垂直搜索引擎。像中国教育信息网、中国教育考试网等都是一些提供教育信息的门户网站,但是没有一个搜索引擎是单独适合高等教育的。垂直搜索引擎爬取的信息来源应该是与此事相关的行业网站。比如职位信息的垂直搜索引擎,它的数据信息来自,和。垂直搜索引擎的所有搜索行为都属于结构化搜索,它建立在结构化数据和元数据的基础上。
中国垂直搜索引擎市场在这一年里得到了极大的扩展。根据易观的监测和研究数据,可以看出,垂直搜索引擎市场从上半年的21.50亿增长。元年底发展到53.20亿,其中垂直搜索引擎占了很大一部分。目前,*敏*感*词*垂直搜索引擎涵盖的行业非常广泛,涉及到求职、医疗、旅游、书籍、购物等生活的方方面面。在中国垂直搜索引擎领域,排名第一的是赛迪IT指南针。它的网址是://,作为赛迪网推出的第一个中文领域IT垂直搜索引擎,意义非凡。截至 2011 年,它已采集了 20,000 多个 IT 网站和数百万个 IT 网页。但即便如此,我国垂直搜索引擎技术的发展与国外水平仍有较大差距,主要体现在数据挖掘、界面开放、信息共享等方面。国外几个成熟的垂直搜索引擎包括法律信息的LIBClient-IRISWeb系统,科学信息的Seirus系统。 1.3 研究目的 现在互联网发展很快。有各种新闻频道,例如微博、网页和朋友圈,可以获取有关世界上正在发生或已经发生的事情的信息。但是过多的信息轰炸很快就覆盖了我们真正想要关心的事情。例如,许多大学生、教师和高等教育研究人员非常关心每天发生的与他们自己的高等教育有关的事情。同时,我也想知道过去是否发生过类似的事件。
但是,社会发展日新月异,每天都在发生很多事情,他们关心的信息马上就会被覆盖,再想找也难了。关于教育网站有中国教育网,中国考试网,但他们是一个大型信息门户网站,包括所有相关的教育方面。由于每天都有各种各样的事件发生,我们想知道的高等教育信息很快就会被淘汰。因此,设计一个专门采集高等教育动态信息的系统势在必行。该系统是高等教育的垂直搜索引擎,主要供各方查询和阅读与高等教育相关的事件。垂直搜索引擎主要是从其他与行业相关的网站那里抓取所需信息,是一个制度化的搜索引擎。通过高等教育动态信息采集系统的开发,大家每天都可以在搜索引擎上看到所有的高等教育事件,以及之前是否有过相关事件,不再担心这些信息是否存在。会被覆盖,因为它们被网络爬虫抓取后,经过页面分析和索引创建后存储在数据库中,方便以后随时查询和阅读。 1.4 论文组织结构 本文各章节组织结构如下: 开发技术和原理介绍。首先是对搜索引擎发展的简单描述,主要包括两个方面:一是目前发展起来的三个目标,二是搜索引擎按功能分类介绍。
同时也介绍了垂直搜索引擎的基本开发原理和流程,以及垂直搜索引擎所需的基本技术。这是需求分析。分为3部分: 第一部分是垂直搜索引擎的功能需求分析和介绍。第二部分是对其性能要求的说明,第三部分是系统的技术可行性分析。是整体设计。主要包括系统流程图的设计和软件结构和模块划分的设计。在第一个模块中,我主要为系统设计了一个整体的流程框架。在第二个模块中,简要介绍了软件结构,将系统分为客户端和服务器两个模块。是详细的设计说明。本系统的程序有流程设计,数据结构设计。在数据结构模块中,我分为三个方面:数据库端、服务器端和文件夹端。同时,还展示了前后端的界面设计。主要是展示实现本系统的一些核心代码。主要包括三个方面:信息采集、信息处理和信息检索。系统测试部分首先描述了测试环境框架的搭建,然后对系统的功能实现进行了简单的测试。总结全文,并给出系统的一些不完善的地方,希望以后可以改进。 2.开发技术及原理介绍2.1 搜索引擎开发概述2.1.1搜索引擎介绍及发展目标随着互联网的飞速发展,IT技术已经应用到普通人生活的方方面面,每一个个人广泛使用搜索引擎,尤其是中国的百度和搜狗。
2000年以后的15年,是搜索引擎飞速发展的阶段。搜索引擎的发展,已经从最早的一代分类目录,再经过文本检索和链接分析,发展到现在的以用户为中心的一代。如今,互联网主要以用户的个性化、社交化为发展趋势,由此产生和发展了垂直搜索引擎。可以看出,垂直搜索引擎是针对明确的目标群体和行业领域的特殊搜索服务。搜索引擎发展至今,一共有3个目标,分别是“更全、更快、更准”:(1)为“更全”:考虑到网页的数量,我们必须做好搜索引擎,尽量让被索引的网页数量更全面,以满足人们更全面的需求。这个可以通过网络爬虫来解决。(2)瞄准“更快”:在要求下之前的目标,有一个比较全面的索引 网页之后,对索引和缓存技术的要求更快,这可以通过各种优化算法来实现。(3)为“更准确”:有了更全面和更快的,那么下来是最重要的部分,就是要更准确。在对索引页面进行排序和分析链接结果时,我们需要争取更高的准确性,以增强用户的印象。作为搜索引擎,如果它可以更准确,然后它会增加拥有强大的竞争资本。 2.1.2 搜索引擎分类 在搜索引擎发展的悠久历史中,经过不断的完善和修正,现在可以分为三类。类型有元搜索引擎、目录搜索引擎和全文搜索引擎。
全文搜索引擎:现在互联网上出现的大部分搜索引擎都是从全文搜索引擎演化而来,是通用搜索引擎的主要形式。我们比较熟悉的百度,是一个全文搜索引擎。它的主要工作原理是先通过网络蜘蛛爬取数据,然后建立索引。用户通过输入查询条件接收所需的信息反馈。目录搜索引擎:它和一般的搜索引擎有很大的不同,更像是一个门户网站。用户可以通过首页的分类列表查询想要查看的信息。比如搜狐新闻首页就属于目录索引。元搜索引擎:作为搜索引擎的一种,并不是我们在概念上所知道的搜索引擎。其主要工作原理是在收到用户的查询条件后,将多个搜索引擎的查询结果进行整合。一起反馈给用户。 2.2 基本工作原理和技术分析 在设计通用搜索引擎搜索引擎时,工作可以分为三个步骤:提取在线信息、建立索引、处理搜索查询。搜索引擎结构如下: 图2.1 搜索引擎结构 第一步:提取在线信息(网络爬虫)。获取网页内容的方式是利用网络蜘蛛技术从一个设置开始爬取信息或者输入网站,然后通过里面的链接跳转到另一个网页继续爬取,然后保存资源。第二步:建立索引 作为垂直搜索引擎,建立良好的索引系统是重要的一步。数据信息被网络爬虫爬取后,需要进行索引,才能访问数据库。
第 3 步:检索和查询处理。当用户在Web界面输入相关查询条件时,通过相关查询条件的传输,判断为关键词匹配,然后将查询结果反馈给用户。 2.2.1 网络爬虫(1)网络蜘蛛目前网上的信息量很大,简单的搜索引擎不可能把网上所有的资源都抓取下来,当然没必要. 做. 网络蜘蛛现在是搜索引擎下载网络资源的主要方式,它的主要工作流程是:服务端程序运行后,输入一个起始网站,作为*敏*感*词*网址,开始抓取从这个网址中获取互联网上的信息和数据,然后从这个网站的链接进入另一个网页,继续抓取资源,一直做这个循环。系统后端设置的线程数 当时间停止时,当爬取到设定的深度时,则不进行下一级的网络爬取。使用网络蜘蛛爬取数据时,有两个爬取命令,即深度优先策略和广度优先策略。 eadth-first算法,它的主要过程是从一个初始的网站抓取信息后,作为第一层,然后通过一个链接进入另一个网站,即第二层。重复递增。对于宽度优先,顾名思义,必须爬取每一层的所有内容,才能进入下一层,然后再爬取。是一般搜索引擎常用的一种爬取方式。因为这涉及的内容比较广泛,但也有相应的缺点,可能会错过深层次的重要资源。其主要爬取形式如图2.2所示。图2.2 广度优先策略深度优先算法,其主要步骤是从起始网页开始,跟随其中一个链接,一直走到最后,直到没有链接为止。其实从名字上也很好理解,就是从深度方向,一层一层地考虑