网页flash抓取工具(一种网页信息的获取方法和装置的技术介绍及应用)

优采云 发布时间: 2022-04-13 06:20

  网页flash抓取工具(一种网页信息的获取方法和装置的技术介绍及应用)

  本发明专利技术公开了一种网页信息获取方法及装置。该方法包括: 爬取步骤,从站点服务器爬取网页;页面信息分析步骤,根据预设的页面提取规则,从网页的指定位置提取指定的页面信息;存储步骤,以结构化方式存储指定页面信息。本发明专利技术提供的获取网页信息的方法及装置,从站点服务器抓取网页后,不直接存储整个网页的信息,而是存储指定的页面信息。根据页面抽取规则从网页的指定位置抽取。, 并以结构化的方式存储指定的页面信息。其中,页面抽取规则可根据用户需求定制。通过对网页信息的分析,满足了网页信息定制化提取​​的需求。

  下载所有详细的技术数据

  【技术实现步骤总结】

  该专利技术涉及计算机网络

  ,具体涉及一种网页信息获取方法及装置。

  技术介绍

  网络爬虫(也称为网络蜘蛛、网络机器人,在某些社区,更常称为网页追逐者)是一种自动获取网页内容的程序或脚本,是搜索引擎的重要组成部分。引擎的优化主要针对网络爬虫进行了优化。网络爬虫一般分为传统爬虫和专注爬虫。传统爬虫从一个或多个初始网页的URL(Uniform/Universal Resource Locator,Uniform Resource Locator)出发,获取初始网页的URL;在爬取网页的过程中,不断地从当前页面中提取新网页的URL,并放上去。进入队列,直到满足系统的某个停止条件。焦点爬虫的工作流程比较复杂。需要按照一定的网页分析算法过滤掉与主题无关的链接,保留有用的链接,放入URL队列等待抓取;然后,根据一定的搜索策略从队列中选择下一页。一步要爬取的网页的URL,重复上述过程,直到达到系统的某个条件。此外,所有被爬虫爬取的网页都会被系统存储起来,经过一定的分析和过滤,编入索引以供后续查询和检索。以上两种网络爬虫获取整个网页的信息并直接存储。该类爬虫不解析网页信息,无法满足定制化提取​​网页信息的需求。

  技术实现思路

  鉴于上述问题,本专利技术旨在提供一种网页信息获取方法及相应的网页信息获取装置,以克服上述问题或至少部分解决上述问题。根据本专利技术的一个方面,提供了一种网页信息的获取方法,包括从站点服务器抓取网页的抓取步骤;页面信息解析步骤,根据预设的页面提取规则,从指定位置提取指定页面信息;在存储步骤中,将指定页面信息结构化存储。根据本专利技术的另一方面,提供了一种网页信息获取装置,包括网页爬虫,适用于从站点服务器抓取网页;页面信息解析器,适用于根据预设规则提取页面。,从网页的指定位置提取指定的页面信息;动作处理器用于以结构化方式存储指定页面信息。本专利技术提供的网页信息获取方法及装置,从站点服务器抓取网页后,不直接存储整个网页的信息,而是从指定的页面中提取指定的页面信息。根据页面提取规则定位网页的位置,以结构化的方式存储指定的页面信息。其中,页面抽取规则可根据用户需求定制。通过对网页信息的分析,满足了定制化提取​​网页信息的需求。以上描述只是对专利技术的技术方案的概述。为更清楚地了解专利技术的技术手段,可根据说明书的内容实施,使专利技术的上述及其他目的、特点和优点更加完善。显而易见,易于理解,下*敏*感*词*体列举本专利技术的具体实施例。为更清楚地了解专利技术的技术手段,可根据说明书的内容实施,使专利技术的上述及其他目的、特点和优点更加完善。显而易见,易于理解,下*敏*感*词*体列举本专利技术的具体实施例。为更清楚地了解专利技术的技术手段,可根据说明书的内容实施,使专利技术的上述及其他目的、特点和优点更加完善。显而易见,易于理解,下*敏*感*词*体列举本专利技术的具体实施例。

  附图说明通过阅读以下对优选实施例的详细描述,对于本领域普通技术人员来说,各种其他优点和益处将变得显而易见。附图仅用于说明优选实施例的目的,不应视为对专利技术的限制。此*敏*感*词*完整地传达给本领域技术人员。如图。图1示出了根据本专利技术实施例的获取网页信息的方法100的流程图。如图1所示,方法100从步骤S101开始,步骤S101为抓取步骤,具体为从站点服务器抓取网页。爬虫系统具体可以使用以下三种方法从站点服务器爬取网页: 1) 直接从站点服务器下载网页,这种方法可以用于没有反爬策略的站点。2)通过浏览器渲染方式从站点服务器下载网页;因为有些网站使用了ajax(Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,所以需要使用浏览器渲染的方式来获取完整的页面结构。方法100从步骤S101开始,步骤S101为抓取步骤,具体为从站点服务器抓取网页。爬虫系统具体可以使用以下三种方法从站点服务器爬取网页: 1) 直接从站点服务器下载网页,这种方法可以用于没有反爬策略的站点。2)通过浏览器渲染方式从站点服务器下载网页;因为有些网站使用了ajax(Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,所以需要使用浏览器渲染的方式来获取完整的页面结构。方法100从步骤S101开始,步骤S101为抓取步骤,具体为从站点服务器抓取网页。爬虫系统具体可以使用以下三种方法从站点服务器爬取网页: 1) 直接从站点服务器下载网页,这种方法可以用于没有反爬策略的站点。2)通过浏览器渲染方式从站点服务器下载网页;因为有些网站使用了ajax(Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,所以需要使用浏览器渲染的方式来获取完整的页面结构。爬虫系统具体可以使用以下三种方法从站点服务器爬取网页: 1) 直接从站点服务器下载网页,这种方法可以用于没有反爬策略的站点。2)通过浏览器渲染方式从站点服务器下载网页;因为有些网站使用了ajax(Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,所以需要使用浏览器渲染的方式来获取完整的页面结构。爬虫系统具体可以使用以下三种方法从站点服务器爬取网页: 1) 直接从站点服务器下载网页,这种方法可以用于没有反爬策略的站点。2)通过浏览器渲染方式从站点服务器下载网页;因为有些网站使用了ajax(Asynchronous JavaScript and XML,异步JavaScript和可扩展标记语言)技术,所以需要使用浏览器渲染的方式来获取完整的页面结构。

  爬虫系统配备多个内核渲染模块,如IE内核、Gecko(火狐)内核、Chrome内核等。3)为了防止爬虫系统频繁访问某个站点服务器而被阻塞通过站点服务器,爬虫系统可以通过代理服务器从站点服务器下载网页,使用代理服务器下载网页可以保证爬取的及时性和不间断性。以上三种方式基本可以解决爬取各类网站的问题。随后,方法100进入步骤S102,为页面信息分析步骤,具体为根据预设的页面提取规则,从网页的指定位置提取指定的页面信息。爬虫系统分析每个网页的页面结构,根据页面抽取规则抽取指定页面信息。页面提取规则是自定义的,可以手动配置。可选地,页面提取规则在指定位置之前和之后设置 HTML 标记。由于页面中的有效信息都在HTML标签中,所以指定位置一般也是HTML标签,而指定位置是由其前后的HTML标签定义的,指定位置的HTML标签就是指定页面要提取的信息。例如,对于来自站点服务器的网页,如果要提取网页中的“游戏名称”字段,则自定义页面提取规则应包括该字段前后的HTML标签 页面提取规则是自定义的,可以手动配置。可选地,页面提取规则在指定位置之前和之后设置 HTML 标记。由于页面中的有效信息都在HTML标签中,所以指定位置一般也是HTML标签,而指定位置是由其前后的HTML标签定义的,指定位置的HTML标签就是指定页面要提取的信息。例如,对于来自站点服务器的网页,如果要提取网页中的“游戏名称”字段,则自定义页面提取规则应包括该字段前后的HTML标签 页面提取规则是自定义的,可以手动配置。可选地,页面提取规则在指定位置之前和之后设置 HTML 标记。由于页面中的有效信息都在HTML标签中,所以指定位置一般也是HTML标签,而指定位置是由其前后的HTML标签定义的,指定位置的HTML标签就是指定页面要提取的信息。例如,对于来自站点服务器的网页,如果要提取网页中的“游戏名称”字段,则自定义页面提取规则应包括该字段前后的HTML标签 指定位置一般也是HTML标签,指定位置由其前后的HTML标签定义,指定位置的HTML标签就是要提取的指定页面信息。例如,对于来自站点服务器的网页,如果要提取网页中的“游戏名称”字段,则自定义页面提取规则应包括该字段前后的HTML标签 指定位置一般也是HTML标签,指定位置由其前后的HTML标签定义,指定位置的HTML标签就是要提取的指定页面信息。例如,对于来自站点服务器的网页,如果要提取网页中的“游戏名称”字段,则自定义页面提取规则应包括该字段前后的HTML标签

  . 当爬虫系统分析网页时,它会从中提取两个 HTML 标签

  介于两者之间的信息,即“游戏名称”。对于链接到下载文件(如软件包)的网页,从中提取的指定页面信息通常包括下载文件链接,可选地,还包括该网页的父页面链接,这些链接信息是根据链接信息提取以供后续下载。对应的下载文件。父页面链接用于溯源。在下载对应的下载文件时,还可以找到下载文件的来源,包括父页面或站点等,方便后续的数据维护和对应的查询功能。进一步地,爬虫系统可以通过两种方式从站点服务器爬取网页:完全爬取和增量爬取。采用全量爬取还是增量爬取方式,视需求而定。比如一个新的游戏站点服务器会收录对于很多新游戏,需要遍历站点服务器的所有网页,即全爬,抓取所有游戏,然后进行统一处理(即页面信息解析和存储处理)。游戏站点服务器的游戏全部爬取完成后,站点服务器会每天更新游戏。在这种情况下,需要采用增量爬取的方式来爬取每天更新的游戏。全爬取方式对站点服务器进行一次性任务下发,即从站点服务器一次性爬取网页。首先将要爬取的站点服务器的名称通知任务调度器,任务调度器会自行查询站点服务器的爬取规则,然后完成全量爬取。任务调度器将爬取任务下发给特定的工作进程,执行的爬取任务可以首先包括从站点服务器爬取初始网页。解析初始网页,获取链接到初始网页的新网页的URL。根据 URL 从站点服务器抓取新网页。通常站点服务器从初始页面递归启动,并且有十层或更多层。任务调度器从初始页面开始爬取,根据网页中的链接递归地爬取更深的网页,也就是执行完整的递归子步骤,具体来说就是解析新的网页,获取链接到新网页的新网页的URL,从站点服务器获取再次获取的新网页;重复执行全递归子步骤,直到满足停止爬取条件。一般来说,爬虫系统一般需要对前几层的网页进行爬取才能满足要求,所以爬虫系统可以设置单站服务器的递归层数,设置递归爬取的递归层数到站点服务器就足以停止爬网。拿条件。从某个站点服务器爬取所有网页后,对这些网页进行统一处理,包括根据预设的页面提取规则从上述页面中提取。重复执行全递归子步骤,直到满足停止爬取条件。一般来说,爬虫系统一般需要对前几层的网页进行爬取才能满足要求,所以爬虫系统可以设置单站服务器的递归层数,设置递归爬取的递归层数到站点服务器就足以停止爬网。拿条件。从某个站点服务器爬取所有网页后,对这些网页进行统一处理,包括根据预设的页面提取规则从上述页面中提取。重复执行全递归子步骤,直到满足停止爬取条件。一般来说,爬虫系统一般需要对前几层的网页进行爬取才能满足要求,所以爬虫系统可以设置单站服务器的递归层数,设置递归爬取的递归层数到站点服务器就足以停止爬网。拿条件。从某个站点服务器爬取所有网页后,对这些网页进行统一处理,包括根据预设的页面提取规则从上述页面中提取。所以爬虫系统可以设置单个站点服务器的递归层数,设置的递归爬到站点服务器的递归层数足以停止爬取。拿条件。从某个站点服务器爬取所有网页后,对这些网页进行统一处理,包括根据预设的页面提取规则从上述页面中提取。所以爬虫系统可以设置单个站点服务器的递归层数,设置的递归爬到站点服务器的递归层数足以停止爬取。拿条件。从某个站点服务器爬取所有网页后,对这些网页进行统一处理,包括根据预设的页面提取规则从上述页面中提取。

  【技术保护点】

  一种网页信息获取方法,包括: 抓取步骤,从站点服务器抓取网页;页面信息解析步骤,根据预设的页面提取规则,从网页的指定位置提取指定的页面信息;存储步骤,对指定的页面信息进行结构化存储。

  【技术特点总结】

  【专利技术性质】

  技术研发人员:徐瑞波、陆毅、

  申请人(专利权)持有人:,,

  类型:发明

  国家省市:

  下载所有详细的技术数据 我是该专利的所有者

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线