网页抓取解密(搜索引擎的原理简单分为三段信息抓取、信息处理和查询服务)

优采云发布时间: 2021-10-14 02:00

　　专利名称：网络信息抓取方法

　　网络信息抓取方法

　　技术领域：

　　本发明涉及搜索引擎领域，尤其涉及一种搜索引擎的网页抓取技术。背景技术：

　　随着网络通信技术的飞速发展，互联网已经成为一个巨大的分布式信息空间，其中收录着潜在的有价值的知识。网络信息收录许多有用的、潜在的、但不容易发现的知识和模式。人们迫切需要发现和掌握能够获取这些知识和模式的方法和工具。互联网上的信息以网页形式存在，网页之间通过超链接相互连接，形成错综复杂的信息网络。在早期的互联网时代，人们查找信息非常不方便，导致了搜索引擎的出现。搜索引擎采集和发现互联网上的信息，理解、提取、组织和处理信息，为用户提供搜索服务。搜索引擎的原理简单地分为信息捕获、信息处理和查询服务三个部分。信息爬取是通过网络爬虫从一个或多个初始网页的网址中获取初始网页的网络信息，通过不断从当前网页中提取新的网址并放入队列中，获取更多的网页和网页。Internet 上的网络信息，直到满足系统的某个停止条件。信息处理是将网络信息获取后存储在搜索引擎的数据库中，然后对网络信息进行一定的处理，以方便检索。最后，查询服务会根据用户的需要反馈处理后的网络信息。然而，现有技术中搜索引擎处理的最小对象是网页。请参考图。参考图1，其示出了描绘因特网的现有搜索引擎的结构模型100。现有的搜索引擎将互联网的结构模型100描述为网页图模型。网页图100由多个网页节点和超链接边组成。搜索引擎在抓取信息的过程中将每个网页保存为一个网页节点，如图中节点102所示；然后通过超链接将各个网页节点连接为一个关系，如图中的边104所示；整个互联网存储为一个网页地图结构。需要说明的是，网页中的信息并非都是用户希望得到的信息。请参考图。2、图1显示了收录现有技术中的结构化信息块的网页200。网页200包括三部分网站分类导航信息块202、广告等网页200的信息块204和主题部分206。对于绝大多数用户来说，他们想要什么搜索的只是与关键字相关的主题部分206的信息，而对于网站分类导航信息块202和广告等信息204则不关心。像网页200的主题部分206这样的网络信息被称为结构化信息块。结构化信息块是指信息经过分析可以分解为多个相互关联的组件，每个组件都有清晰的层次结构，以及对由数据库管理的网页信息的使用和维护。例如，在关于笔记本的页面中，结构化信息块收录笔记

　　此“品牌、型号、CPU、内存、硬盘、显示屏……”信息；在有关房地产信息的页面上，其

　　结构化信息块收录物业的“类型、地区、地址、房型、面积、装修状况、租金、联系人、联系电话等。

　　话……”信息。可以看出，互联网上有海量的类似信息，用户想要直接获取。

　　信息。如果搜索引擎在信息抓取过程中使用图1所示的网页结构来描绘互联网，显然会导致查询结果中收录大量无用信息，导致准确率下降。而且，用超链接作为关系来存储各个网页节点之间的关系也是不合逻辑的。由于搜索引擎总是将网页地址作为搜索结果呈现给用户，当用户点击相关结果时，他们很可能就在超链接的旁边。网站是无用的广告网站，与用户的目标和期望相差很大，浪费用户的时间。因此，有必要提出一种新的技术方案来解决上述不足。

　　发明内容本节的目的是对本发明实施例的几个方面进行总结，并简要介绍一些优选实施例。为避免混淆本部分、说明书摘要和发明名称的目的，本申请部分和说明书摘要和发明名称可能会有所简化或省略，不得使用此类简化或省略以限制本发明的范围。本发明的一个目的是提供一种网络信息的抓取方法，通过该方法，搜索引擎可以抓取互联网中的结构化信息。为实现本发明的目的，根据本发明的一个方面，本发明提供了一种捕获网络信息的方法。并提取其中的结构化信息，将结构化信息存储为当前对象节点；将获取到的网页中的链接地址作为当前URL，继续从当前URL中获取网页，并分析捕获获取网页并提取其结构化信息，将结构化信息存储为当前对象节点，定义并存储当前对象节点与现有对象节点的关系，重复此操作完成网络信息捕获。此外，有一个或多个初始 URL。更远，分析抓取的网页并提取其中的结构化信息是指提取抓取网页中的结构化信息块或抓取网页中的半结构化信息块和非结构化信息块。将结构化信息块转换为结构化信息块，每个结构化信息块作为一个对象节点。进一步地，可以从爬取的网页中提取一个或多个结构化信息块，每个结构化信息块作为一个对象节点。更远，当前对象节点与现有对象节点关系的定义和存储是指通过当前对象节点中的数据与现有对象节点之间的逻辑或语义关系，定义当前对象节点与现有对象节点之间的关系。现有对象节点和存储。进一步地，当前对象节点与现有对象节点之间关系的定义和存储意味着每次提取当前对象节点时，都必须与现有对象节点定义并存储关系。进一步地，如果不能从被爬取的网页中提取结构化信息，则将被爬取的网页视为伪对象节点。进一步地，网络信息捕获方法捕获的网络信息为对象图。更远，

　　要点ο与现有技术相比，本发明使用对象图来描绘互联网。搜索引擎处理的最小单位是对象节点，即结构化的信息块，它可以让用户直接获取有用的信息，剔除广告信息。和无用的信息；同时，每个对象节点之间的关系由逻辑或语义关系定义，每个对象节点之间的关系具有一定的逻辑或语义关系，可以使查询结果具有更好的准确率。

　　结合附图和以下详细描述，本发明将更容易理解，其中相同的附图标记对应相同的结构部件，其中

　　图1是现有的搜索引擎，描绘了互联网的结构模型；图2为现有技术中收录结构化信息块的网页；图3是本发明实施例中对象图的结构*敏*感*词*；图4是使用本发明描述的对象图描绘互联网的*敏*感*词*；和图。图5为本发明网络信息捕获方法一个实施例的方法流程图。

　　具体实施方式本发明的详细描述通过程序、步骤、逻辑块、流程或其他符号描述直接或间接模拟了本发明技术方案的运行。为了彻底理解本发明，在以下描述中陈述了许多具体细节。没有这些具体细节，本发明仍然可以实现。本领域技术人员在这里使用这些描述和陈述，有效地向本领域的其他技术人员介绍他们的工作性质。换句话说，为了避免混淆本发明的目的，由于众所周知的方法、流程、组件和电路已经很容易理解，因此不再详细描述。此处所称的“一个实施例”或“实施例”是指可包括在本发明的至少一种实施方式中的特定特征、结构或特性。本说明书中不同地方出现的“在一个实施例中”并不均指同一实施例，也不是与其他实施例分离或选择性地相互排斥的实施例。另外，一个或多个实施例的方法、流程图或功能框图中各模块的顺序并不总是指任何具体的顺序，并不构成对本发明的限制。本发明的网络信息采集方法可以通过计算机结合相关程序实现为信息采集模块，位于整个搜索引擎系统的信息抓取位置。在捕获网络信息时，以结构化信息块作为最小处理单元，将互联网描绘成对象图而不是网页图。为突出重点，下面仅对与本发明相关的网络信息采集技术进行说明，搜索引擎系统的其他方面本文不再赘述。

　　请参考图。参见图3，为本发明实施例中对象图的结构*敏*感*词*。对象图300还包括图模型的两个基本元素，节点和边。我们定义对象图由若干对象节点（如图，节点304和节点310)，以及连接两个对象节点的关系边（如图，边30）组成6)).其中，对象节点代表互联网网页中的结构化信息块，如图所示，网页302中的结构化信息块304为对象节点；主体部分图2中网页200的206为对象节点，在一个实施例中，对象节点可以表示产品的结构化信息，其中可以包括产品名称、产品价格、产品信息和产品产地等信息。在另一个实施例中，对象节点可以表示公司的结构化信息，可以包括公司名称、公司规模、公司注册日期、公司法人等信息。简而言之，对于不同的主题，对象节点可能代表不同的信息。连接两个对象节点的关系边表示两个对象节点之间的关系，通常是两个对象节点所表示的结构化信息的逻辑或语义关系。在一个实施例中，如果两个对象节点A和B所描述的主题是学术论文，则结构化信息可以包括论文的作者、论文出版商、论文发表时间、论文摘要等，

　　请参考图。请参考图4，其为本发明的对象图描绘互联网的*敏*感*词*。因特网400包括许多互连的对象图。在一个实施例中，对象图402是与学术论文相关的对象节点和相关关系边的集合。在另一个实施例中，对象图404是代表学校所有人员的信息的集合，其中对象节点代表所有学生、教师和员工的个人信息，可能具有班级、年龄等逻辑关系；在另一个实施例中，对象图406表示一个博客网站的所有博客帖子，其中对象节点表示博客的正文、作者、时间等信息，其中关系端可以是作者的共同点爱好，同一出版时间等。每个对象图可能是一个主题或语义独立的集合，但它们是相互关联的。例如，对象图404中的学生或教师可以是对象图402中学术论文的作者，对象图406中的博客的所有者是对象图404的雇员等。总之，当通过对象图描述互联网时，希望每个对象节点都收录一个逻辑或语义独立的结构化信息块，每个对象节点之间的关系是逻辑或语义关系。显然，当通过对象图描绘互联网时，就相当于搜索引擎对互联网上的信息进行了预筛选和过滤。当用户搜索时，他们可以直接向用户反馈最重要或最想要的信息。请参考图。请参阅图5，其为本发明的网络信息撷取方法500的方法流程图。

　　方法500包括以下步骤。步骤502，以初始网址作为当前网址，从当前网址抓取网页，对抓取的网页进行分析，提取其中的结构化信息，并将结构化信息作为当前对象节点存储。搜索引擎可以从一个或多个初始 URL 开始抓取网页。网页被抓取后，必须提取网页中的结构化信息作为对象节点。在一个实施例中，在从网页中提取结构化信息之前，可以定义结构化信息模板。同样，如上所述，对于不同的数据主体，结构化信息模板的定义可以完全不同。例如，对于产品信息等主题，结构化信息可以包括产品名称、产品简介和产品。价格、产品信息、产品产地等信息字段。又例如，对于公司信息等主题，结构化信息可以包括公司名称、公司规模、公司注册日期、公司法人等信息字段。定义的结构化信息模板用于在网页中进行遍历搜索。如果网页中的部分数据可以与结构化信息模板匹配，则可以将这部分数据提取为网页中的结构化信息。在另一个实施例中，

　　在又一实施例中，结合多种网络结构化信息块提取技术，对网页进行综合处理，得到更多结构化信息块作为对象节点。在一个实施例中，如果从当前网页中提取出一个结构化信息，则将其视为当前的一个对象节点；如果从当前网页中提取出两个结构化信息，也将其视为当前两个对象节点，并定义当前两个对象节点之间的关系；如果结构化信息块不是从当前网页中提取出来的，则首先将其存储为伪对象节点。如果图 3 所示的网页 302 图3是商品导购页面，可以提取商品的结构化信息304，形成对象节点304；如果网页308是产品用户评价页面，则无法提取图3所示的网页312的结构。图3包括两个结构化信息块314和316，则形成两个对象节点。步骤504：将抓取到的网页中的链接地址作为当前URL，从当前URL继续抓取网页，分析抓取的网页并提取其结构化信息，并将结构化信息存储为当前URL。对象节点定义并存储当前对象节点与现有对象节点之间的关系，并重复该操作完成网络信息捕获。处理完一个页面后，根据该页面中的链接地址继续获取下一个页面，同时提取结构化信息。特别是，这个页面中的所有链接地址都必须按照一定的策略依次处理。比如可以使用I^ageRank算法的策略进行处理。

　　如果提取结构化信息块，则将其视为对象节点；如果当前网页没有从结构化信息块中提取出来，则首先将其视为伪对象节点。在一个实施例中，提取的每个新的对象节点都必须定义与现有对象节点的关系，该关系由每个对象节点中的结构化信息的相关数据或属性标签来确定是否收录相同的数据。或者同类型的数据，数据之间是否存在引用和继承关系来判断。例如，在一个实施例中，两个对象节点代表同一品牌的食品，因为两个对象节点的结构化信息包括相同的品牌数据，两个对象节点之间的关系被定义为相同的品牌。重复上面的504步，就可以对互联网上的整个网页进行一次处理，就可以得到一张物件图。我们也可以稍后去除object map中的fake object节点，然后优化object map中的object 节点之间的关系，以获得更准确的object graph。在一个具体实施例中，我们采用上述网络数据采集方法，利用计算机结合相关程序实现信息采集模块，该模块位于移动搜索引擎的信息采集位置，为用户提供吃、住、和运输。对于商品等生活信息的检索，用户输入关键词“无锡咖啡厅”后，他会直接在手机客户端获取无锡咖啡馆的相关信息，没有其他广告信息或无用信息。它不仅可以节省用户的时间，还可以充分利用手机较小的显示屏来显示更多有用的信息。

　　本发明的网络数据抓取方法的一个特点、优点或好处在于，不是直接抓取整个网页，而是对网页的数据进行分析提取，只抓取部分有用信息，从而使得可以减少存储的数据。也会大大减少，同时可以保证后续搜索更有针对性，搜索结果更准确。通过设置不同的主题，可以有针对性地抓取互联网上的数据，既保证了数据的全面性，又保证了数据的针对性。以上描述已经充分公开了本发明的具体实施例

　　. 需要指出的是，本领域技术人员已经熟悉本发明的具体实施例

　　所做的任何改变都不脱离本发明权利要求的范围。相应地，本发明权利要求的范围不限于具体实施例。

　　.

　　权限请求

　　1. 一种网络信息抓取方法，其特征在于以初始URL为当前URL，从当前URL中抓取网页，分析抓取的网页并提取结构化信息，将结构化信息存储为当前对象节点；将抓取到的网页中的一个链接地址作为当前URL，从当前URL继续抓取网页，分析抓取到的网页并提取其结构信息，结构化信息作为当前对象节点，当前对象之间的关系节点和已有的对象节点被定义和存储，重复这个操作完成网络信息的捕获。

　　2.如权利要求1所述的网络信息捕获方法，其特征在于，所述初始URL为一个或多个。

　　3.根据权利要求1所述的网络信息爬取方法，其特征在于，对爬取的网页进行分析并提取其中的结构化信息是指从爬取的网页块中提取结构化信息或将半结构化信息块和非结构化信息块进行转换将抓取到的网页中的信息转化为结构化信息块，每个结构化信息块作为一个对象节点。

　　4.根据权利要求1所述的网络信息爬取方法，其特征在于，可以从爬取的网页中提取一个或多个结构化信息块，每个结构化信息块作为一个对象节点。

　　5.根据权利要求1所述的网络信息捕获方法，其特征在于，当前对象节点与现有对象节点之间关系的定义和存储是指通过当前对象节点和现有对象节点。数据的逻辑或语义关系定义了当前对象节点与现有对象节点之间的关系并存储。

　　6.如权利要求1所述的网络信息抓取方法，其特征在于，定义和存储当前对象节点与现有对象节点之间的关系，是指每个当前对象节点都必须与现有对象节点一起提取。存在定义关系并存储它们的对象节点。

　　7.根据权利要求1所述的网络信息爬取方法，其特征在于，如果不能从被爬取的网页中提取结构化信息，则将被爬取的网页视为伪对象节点。

　　8.根据权利要求7所述的网络信息捕获方法，其特征在于，所述网络信息捕获方法捕获的网络信息为对象图。

　　9.根据权利要求8所述的网络信息捕获方法，其特征在于，所述网络信息捕获方法还包括去除获取的对象图中的伪对象节点。

　　全文摘要

　　本发明公开了一种网络信息的捕获方法。该方法包括使用初始URL作为当前URL，从当前URL中抓取网页，分析抓取的网页并提取其中的结构化信息，将结构化信息作为当前对象节点存储；将抓取到的网页中的链接地址作为当前网址，从当前网址继续抓取网页，对抓取到的网页进行分析，提取其结构化信息。将结构化信息存储为当前对象节点，定义并存储当前对象节点与现有对象节点之间的关系，重复此操作，完成网络信息捕获。

　　文件编号 G06F17/30GK102214179SQ20101014413

　　公布日期 2011 年 10 月 12 日申请日期 2010 年 4 月 12 日优先权日期 2010 年 4 月 12 日

　　发明人梁久珍、白玉钊、胡丽娟申请人：

0

2021-10-14

网页抓取解密

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页抓取解密(搜索引擎的原理简单分为三段信息抓取、信息处理和查询服务)

0 个评论

发起人