java爬虫抓取动态网页(网页开发中大量的运用Ajax技术的研究基础上的应用)
优采云 发布时间: 2022-01-10 03:04java爬虫抓取动态网页(网页开发中大量的运用Ajax技术的研究基础上的应用)
本文关键词:基于状态转换的动态爬虫系统的设计与实现,由比根文化传播整理发布。
摘要:网络爬虫按照一定的规则对网络信息进行爬取,是搜索引擎技术的重要组成部分。随着Web2.0的兴起,Ajax技术在Web开发中得到广泛应用。与传统网页不同,Ajax 技术采用异步的方式向服务器发送请求,并根据响应更新页面。Ajax 大大降低了服务器的负载,也提高了用户体验。同时,Ajax技术部分更新HTML页面的方式也对传统爬虫技术提出了严峻挑战。本文在介绍和分析传统爬取原理和结构的基础上,结合动态网络爬虫要解决的问题,设计并实现了一个可以对动态网页数据进行爬取的网络爬虫系统。本文所做的主要工作如下。首先,在前人对动态网络爬虫模型研究的基础上,基于图结构的思想,经过改进,提出了一种基于状态转移的动态网络爬虫模型,从而利用状态转移过程来模拟动态事件触发的网页结构变化。. 结合动态爬虫和真实网络环境的要求,在网页去噪、新状态去重、新状态捕获等方面对算法模型进行了细化和改进。其次,根据该模型,本文采用调用浏览器内核和本地搭建JavaScript解析环境两种方式,设计并实现了动态网页数据的爬虫系统。在保持传统爬虫功能的基础上,增加了对动态数据抓取的支持。最后,本文通过对真实网页的爬取实验,对比了两种方法与传统爬虫的优缺点。验证了系统的可行性和有效性。
[关键词]:动态网络爬虫状态转换Ajax
【学位授予单位】:中山大学
【学位等级】:硕士
【学位授予年份】:2014
【类别号】:TP393.092
【内容】:
【参考】
十大中文期刊全文数据库
1 宋敖;智t$;周军;罗传飞;安然;基于LCS的特征树最大相似度匹配去噪算法[J];电视技术;2011年13期
2 董斌;;网站静态页面生成系统研究[J];福建计算机;2009年08期
3 刘晨曦、吴阳阳。一种基于块分析的网页去噪方法[J];广西师范大学学报(自然科学版);2007年02期
4 段庆玲;杨仁刚;朱洋;;一种从表单中提取Ajax信息项的方法[J];计算机工程;2011年03期
5 周丽珠,林玲。聚焦爬虫技术研究综述[J];计算机应用;2005年09期
6 吕林涛;万景华;周宏芳;计算机应用学院,计算机学院;2006年11期
7 郭浩、卢玉良、刘金红。一种基于状态转移图的Ajax爬取算法[J];计算机应用研究;2009年11期
8 范选淼;郑宁;范远;基于Ajax的爬虫模型设计与实现[J];计算机应用与软件;2010年01期
9 陈雪;徐辉;沈家军;;基于网页结构的网页去噪算法设计[J];软件;2013年08期
10 金晓鸥;钟宝艳;李翔;基于Rhino的JavaScript动态页面解析的研究与实现[J];计算机技术与发展;2008年02期
本文关键词:基于状态转换的动态爬虫系统的设计与实现,由比根文化传播整理发布。
货号:426578