区块之前的兄弟区块和正文相关数据和在确定

优采云发布时间: 2021-05-04 01:21

　　此外，提取网页的主要文本包括以下步骤；确定主要文本的相关图片，确定主要文本的相关视频，确定主要文本的相关数据表，并在确定相关图片，视频和数据的基础上结合主要文本块的文本构造正文的表格。

　　进一步，遍历同级块和文本块之前的文本块，并将非黑名单中的图片和视频链接分别提取为与文本相关的图片和与文本相关的视频。

　　此外，遍历文本块以将数据表提取为与文本相关的数据表。

　　此外，自动提取网页信息的方法还包括：提取与文本有关的基本元数据；

　　提取与文本相关的基本元数据包括：提取标题，提取来源，提取发布时间以及提取作者。

　　进一步，遍历文本块之前的同级块和文本块中的短文本节点，计算最长的子字符串与字符长度之比时，文本节点字符和页面标题文本的最长公共子字符串如果超过某个阈值，它将被添加到标题候选集；

　　在文本块之前遍历同级块，并根据源要素库提取满足源前缀和后特性的字符串，并将其添加到源候选集；

　　遍历文本块之前的兄弟块，并根据发布时间特征库提取满足发布时间前缀和后特性的字符串，并将其添加到发布时间候选集；

　　在文本块之前遍历兄弟姐妹块，并根据作者的特征库提取符合作者前缀和后特性的字符串，并将其添加到作者候选集。

　　此外，预处理网页数据包括：

　　为html网页的源代码对统一字符集进行转码并对特殊字符进行编码和解码。

　　本发明的优点在于它考虑了网页信息提取的效率和准确性。在不显着减少传统网页提取方法的基础上，考虑了网页的布局特征和html的部分视觉特征，有效地改善了网页。信息提取的准确性。

　　在使用该程序自动提取Web信息的基础上，充分利用了存放的黑名单，规则库和知识库，这大大提高了自动提取的准确性，并且可以通过不断更新规则来改进提取方法基础和知识库适应性和准确性的范围。

　　将网页的dom结构与网页的布局功能结合在一起，合并并计算文本，图片，视频和表格，以构建具有综合主题权重和某些视觉功能的块dom，提高文本提取的准确性，并改进网页提取算法的适用领域：除了网页的主要文本外，现有的黑名单，知识库和规则库还可用于更准确地提取主要文本图像，视频，表格的关键字段，标题，发布时间，来源，作者等。

　　图纸说明

　　图1是自动提取Web信息的方法的流程图。

　　具体的实现方法

　　下面参考附图和具体实施例详细描述本发明。

　　如图1所示，一种自动提取网页信息的方法包括以下步骤：一、预处理网页信息；二、建立块dom树；三、定位文本区域；四、提取网页的正文；五、提取与正文相关的基本元数据。

　　在定位文本区域时，请根据通过加权计算获得的被摄体权重来定位文本区域。

　　一、预处理网页信息

　　网页信息的预处理包括：将html网页的源代码转换为统一的字符集，并对特殊字符进行编码和解码。

　　二、构建块dom树

　　构建块dom树包括以下步骤：

　　2. 1对网页的源代码执行容错补偿和dom分析；

　　2. 2基于dom组合html块布局元素以构建块dom结构；

　　2. 3根据显示特征计算dom块中基本主题元素的数量；

　　2. 4对dom块的基本主题元素执行加权计算。

　　重量是数量和重量的乘积。权重主要是指元素节点的视觉显示信息，具有分段，块，居中和增强显示效果的元素具有较高的权重。

　　统计文本信息和权重（转发权重）：纯文本的数量和权重，有效文本的数量和权重（长文本）。

　　超链接信息和权重（负权重）的统计信息：超链接的数量和权重，链接文本的数量以及文本链接的平均比率（外部链接的负权重更高）。

　　图片信息和权重的统计信息：垃圾图片的数量（黑名单中的图片和小图片的权重为负），未链接图片的数量和权重，链接大图片的数量和权重。

　　统计数据表的数量和权重：数据表单元格的数量。

　　视频数量和重量的统计信息：垃圾视频的数量（黑名单中的视频），普通视频的数量和重量。

　　三、找到文本区域

　　根据dom块的主题权重递归收缩并定位候选主题块：找到主题权重最大的dom块，并将其记录为max_block，将主题权重第二大的dom块记录为second_block；如果当max_block的权重与其父节点的权重之比超过某个阈值时，则将max_block用作收缩的根节点，否则收缩将停止。

　　合并候选dom块以获得文本块：如果second_block的值大于某个阈值或second_block与max_block的比率大于某个阈值，请检查second_block和max_block是否具有公共父节点或祖父母节点（如果这样）将公共父节点或祖父母节点设置为文本块content_block，同时将multi_block标志设置为true。

　　根据主题权重裁剪文本块并进行降噪：如果multi_block为true，则将修整content_block以过滤出主题权重小于平均值的块；如果multi_block为false，则主题权重将被滤除小于零的块。

　　四、提取网页的正文

　　网页主要文本的提取包括以下步骤；确定正文的相关图片，确定正文的相关视频，确定正文的相关数据表，并构造正文。

　　遍历同级块和文本块之前的文本块，并从非黑名单中提取图片和视频链接，分别作为与文本相关的图片和与文本相关的视频。

　　遍历文本块并将数据表提取为与文本相关的数据表。

　　文本的构造：在确定文本的相关图片，视频和数据表的基础上，将文本块的文本与文本块的文本组合以构造文本。具体地，基于上面确定的图片，视频和数据表，结合文本块的文本信息，基本的html显示特征按照出现在html中的顺序被保留，并且图片，表的混合布局并制作了视频。的富文本正文。

　　五、提取与文本相关的基本元数据

　　5. 1提取标题

　　依次遍历文本块和文本块中的短文本节点之前的同级块，并计算最长子字符串与字符之比时文本节点字符和网页标题文本的最长公共子字符串文本节点的长度超过某个值阈值被添加到标题候选集。如果标题候选集大于1，则综合考虑节点的视觉增强效果，公共子串的长度，公共子串的比例和文本节点的长度，优选文本节点。如果标题候选节点集为空，则将页面标题作为主页面标题返回。

　　5. 2提取源

　　依次遍历文本块之前的兄弟块，并根据源要素数据库提取满足源前缀和后特性的字符串，并将其添加到源候选集中；如果候选集为空，则根据源，分别从文本的开头和结尾开始和结束。特征库提取满足源前缀和后缀特征的字符串，并将它们添加到源候选集。如果候选集的数量大于1，则最好将媒体源库的内容匹配为文章的源。

　　5. 3提取发布时间

　　依次遍历文本块之前的兄弟块，并根据发布时间特征库提取满足发布时间前缀和后特性的字符串，并将其添加到发布时间候选者集中；如果候选集的数量大于1，则首选值与常识一致，并且可以将发布时间格式库的内容与发布时间匹配。

　　5. 4摘录作者

　　依次遍历同级文字块，然后根据作者的特征库提取符合作者前缀和发布特征的字符串，并将其添加到候选作者集中；如果作者候选集为空，则根据作者特征库提取符合作者前缀和后缀功能的字符串，并加入作者候选集。如果候选集的数量大于1，则最好将作者的源库中的内容匹配为文章的作者。

　　将网页的dom结构与网页的块布局元素组合在一起，以构造具有文本和部分视觉特征的块dom结构，并对文本，图片，视频的基本元素执行融合计算，表格等。定量计算dom块的主题贡献值；通过自上而下的块缩小算法定位网页主题的核心块，然后通过自下而上的块扩展算法过滤网页的主题候选块，最后对候选主题块进行噪声裁剪以完成最终的主题块定位；根据确定的主题块，结合黑名单，规则库和知识库，提取正文信息，包括文字，图片，视频和图表；以规则区，主题库，规则库，知识库，上下文位置，显示功能为中心，提取正文标题，发布时间，来源和作者。

　　上面已经显示和描述了本发明的基本原理，主要特征和优点。本领域技术人员应当理解，上述实施例不以任何形式限制本发明，通过等同替换或等同变换获得的所有技术方案都落入本发明的保护范围。

0

2021-05-04

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

区块之前的兄弟区块和正文相关数据和在确定

0 个评论

发起人