搜索引擎优化毕业论文(毕业设计(论文)说明书学院软件学院专业软件工程学号3007218139指导教师)

优采云 发布时间: 2021-12-15 00:24

  搜索引擎优化毕业论文(毕业设计(论文)说明书学院软件学院专业软件工程学号3007218139指导教师)

  毕业设计(论文)手册

  学院软件学院

  专业软件工程

  年级

  名称

  导师

  2011 年 3 月 6 日

  毕业设计(论文)任务书

  主题:网络爬虫的设计与实现

  学生姓名

  学院名称软件学院

  专业软件工程

  *敏*感*词* 3007218139

  导师

  职称

  原创依据(包括设计或论文的工作依据、研究条件、申请环境、工作目的等)

  互联网是一个巨大的非结构化数据库,在有效检索和组织数据方*敏*感*词*有很大的应用前景。搜索引擎作为一种辅助人们检索信息的工具,已经成为用户访问万维网的入口和向导。但是,这些通用的搜索引擎也有一定的局限性。不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中收录大量用户不关心的网页。因此,需要一种能够基于主题搜索满足特定需求的网络爬虫。

  为了解决上述问题,参考成功的网络爬虫模型,对网络爬虫进行了研究,该网络爬虫可以实现更深层次的网络爬虫主题关联,提供满足特定搜索需求的网络爬虫。

  参考

  [1] 冬天。中文搜索引擎技术解密:网络蜘蛛[M]. 北京:人民邮电出版社,2004。

  [2] 谢尔盖等。大型超文本网络搜索引擎剖析[M]。北京:清华大学出版社,1998。

  [3]Wisenut.WiseNut搜索引擎白皮书[M]. 北京:中国电力出版社,2001。

  [4] Gary R. Wright W. Richard Stevens。TCP-IP协议详解第3卷:TCP事务协议、HTTP、NNTP和UNIX域协议[M].北京:*** 出版社,2002 年 1 月。

  [5] 罗刚、王振东.自己手写网络爬虫[M]. 北京:清华大学出版社,2010 年 10 月。

  [6]李晓明,闫鸿飞,王继民。搜索引擎:原理、技术与系统——中国人才基金学术图书馆[M].北京:科学出版社,2005 年 4 月。

  设计(研究)内容及要求(包括设计或研究内容、主要指标和技术参数,并根据学科性质对学生提出具体要求。)

  本课题的主要目的是设计一个面向主题的网络爬虫程序,同时需要具备一定的性能,兼顾网络爬虫的各种需求。

  网络爬虫应用广度搜索技术。分析 url 并删除重复项。网络爬虫利用多线程技术使爬虫具有更强大的爬取能力。网络爬虫需要爬取特定的主题。网络爬虫还需要完成信息提取任务,提取检索到的网页:新闻、电子书、行业信息等。为网络爬虫的连接网络设置连接和阅读时间,避免无限等待。研究网络爬虫的原理,实现爬虫的相关功能。

  最终实现的网络爬虫应该能够根据设定的主题从设定的url进行一定的深度搜索,最终得到需要的数据。

  指导员(签字)

  年月日

  领队(签字)

  年月日

  天津大学本科生毕业设计论文报告(论文)

  学科名称

  网络爬虫的设计与实现

  学院名称

  软件学院

  职称

  软件工程

  学生姓名

  导师

  (内容包括:课题的来源和意义、*敏*感*词*发展现状、课题的研究目标、研究内容、研究方法、研究方法和进度安排、实验方案可行性分析、现有实验条件和主要参考文件等。)

  题目的来源和意义

  互联网是一个巨大的非结构化数据库,在有效检索和组织数据方*敏*感*词*有很大的应用前景。搜索引擎作为一种辅助人们检索信息的工具,已经成为用户访问万维网的入口和向导。但是,这些通用的搜索引擎也有一定的局限性。不同领域、不同背景的用户往往有不同的检索目的和需求。一般搜索引擎返回的结果中收录大量用户不关心的网页。为了解决这个问题,灵活的爬虫具有不可替代的意义。

  *敏*感*词*发展现状

  网络爬虫的研究始于 1990 年代。目前,爬虫技术已经成熟,网络爬虫是搜索引擎的重要组成部分。网上知名的开源爬虫有Nutch、Larbin、Heritrix等。最重要的网络爬虫是网络搜索策略(广度优先和最佳度优先)和网络分析策略(基于网络拓扑的分析算法和基于网页内容的网页分析算法)。

  研究目标

  本论文主要研究了搜索引擎的搜索引擎(网络爬虫程序)的设计和实现,实现了一个简单的可以在后台自动运行的爬虫程序。

  它可以在多个线程中抓取。

  可以进行面向主题的爬取。

  四.研究内容

  本课题的内容是如何让网络爬虫灵活高效。

  如何拥有更强的把握能力。

  如何区分重复的网页内容。

  如何确定主题相关性。

  处理网络延迟等。

  五.研究方法

  网络爬虫应用广度搜索技术。分析 url 并删除重复项。网络爬虫利用多线程技术使爬虫具有更强大的爬取能力。网络爬虫还需要完成信息提取任务,从被爬取的网页中提取新闻等信息。设置网络爬虫的连接网络的连接和读取时间,避免无限制

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线