搜索引擎优化毕业论文(毕业设计(论文)说明书学院软件学院专业软件工程学号3007218139指导教师)
优采云 发布时间: 2021-12-15 00:24搜索引擎优化毕业论文(毕业设计(论文)说明书学院软件学院专业软件工程学号3007218139指导教师)
毕业设计(论文)手册
学院软件学院
专业软件工程
年级
名称
导师
2011 年 3 月 6 日
毕业设计(论文)任务书
主题:网络爬虫的设计与实现
学生姓名
学院名称软件学院
专业软件工程
*敏*感*词* 3007218139
导师
职称
原创依据(包括设计或论文的工作依据、研究条件、申请环境、工作目的等)
互联网是一个巨大的非结构化数据库,在有效检索和组织数据方*敏*感*词*有很大的应用前景。搜索引擎作为一种辅助人们检索信息的工具,已经成为用户访问万维网的入口和向导。但是,这些通用的搜索引擎也有一定的局限性。不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中收录大量用户不关心的网页。因此,需要一种能够基于主题搜索满足特定需求的网络爬虫。
为了解决上述问题,参考成功的网络爬虫模型,对网络爬虫进行了研究,该网络爬虫可以实现更深层次的网络爬虫主题关联,提供满足特定搜索需求的网络爬虫。
参考
[1] 冬天。中文搜索引擎技术解密:网络蜘蛛[M]. 北京:人民邮电出版社,2004。
[2] 谢尔盖等。大型超文本网络搜索引擎剖析[M]。北京:清华大学出版社,1998。
[3]Wisenut.WiseNut搜索引擎白皮书[M]. 北京:中国电力出版社,2001。
[4] Gary R. Wright W. Richard Stevens。TCP-IP协议详解第3卷:TCP事务协议、HTTP、NNTP和UNIX域协议[M].北京:*** 出版社,2002 年 1 月。
[5] 罗刚、王振东.自己手写网络爬虫[M]. 北京:清华大学出版社,2010 年 10 月。
[6]李晓明,闫鸿飞,王继民。搜索引擎:原理、技术与系统——中国人才基金学术图书馆[M].北京:科学出版社,2005 年 4 月。
设计(研究)内容及要求(包括设计或研究内容、主要指标和技术参数,并根据学科性质对学生提出具体要求。)
本课题的主要目的是设计一个面向主题的网络爬虫程序,同时需要具备一定的性能,兼顾网络爬虫的各种需求。
网络爬虫应用广度搜索技术。分析 url 并删除重复项。网络爬虫利用多线程技术使爬虫具有更强大的爬取能力。网络爬虫需要爬取特定的主题。网络爬虫还需要完成信息提取任务,提取检索到的网页:新闻、电子书、行业信息等。为网络爬虫的连接网络设置连接和阅读时间,避免无限等待。研究网络爬虫的原理,实现爬虫的相关功能。
最终实现的网络爬虫应该能够根据设定的主题从设定的url进行一定的深度搜索,最终得到需要的数据。
指导员(签字)
年月日
领队(签字)
年月日
天津大学本科生毕业设计论文报告(论文)
学科名称
网络爬虫的设计与实现
学院名称
软件学院
职称
软件工程
学生姓名
导师
(内容包括:课题的来源和意义、*敏*感*词*发展现状、课题的研究目标、研究内容、研究方法、研究方法和进度安排、实验方案可行性分析、现有实验条件和主要参考文件等。)
题目的来源和意义
互联网是一个巨大的非结构化数据库,在有效检索和组织数据方*敏*感*词*有很大的应用前景。搜索引擎作为一种辅助人们检索信息的工具,已经成为用户访问万维网的入口和向导。但是,这些通用的搜索引擎也有一定的局限性。不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中收录大量用户不关心的网页。为了解决这个问题,灵活的爬虫具有不可替代的意义。
*敏*感*词*发展现状
网络爬虫的研究始于 1990 年代。目前,爬虫技术已经成熟,网络爬虫是搜索引擎的重要组成部分。网上知名的开源爬虫有Nutch、Larbin、Heritrix等。最重要的网络爬虫是网络搜索策略(广度优先和最佳度优先)和网络分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。
研究目标
本论文主要研究了搜索引擎的搜索引擎(网络爬虫程序)的设计和实现,实现了一个简单的可以在后台自动运行的爬虫程序。
它可以在多个线程中抓取。
可以进行面向主题的爬取。
四.研究内容
本课题的内容是如何让网络爬虫灵活高效。
如何拥有更强的把握能力。
如何区分重复的网页内容。
如何确定主题相关性。
处理网络延迟等。
五.研究方法
网络爬虫应用广度搜索技术。分析 url 并删除重复项。网络爬虫利用多线程技术使爬虫具有更强大的爬取能力。网络爬虫还需要完成信息提取任务,从被爬取的网页中提取新闻等信息。设置网络爬虫的连接网络的连接和读取时间,避免无限制