网页新闻抓取(基于统计的网页正文提取方法的方法基于网页模板一类)

优采云发布时间: 2022-01-08 22:11

　　它由两个标签组成，因此这种网页模板可以组合在一起。聚类相似的DOM树需要计算相似度，计算两棵简单DOM树的相似度的步骤是：第一步判断两棵树的根节点是否相同，如果不同则返回0；如果相同，则继续比较两棵树的叶子节点。第二步比较两棵DOM树的叶子节点的名称和属性，返回两棵DOM树中相同节点的个数。二、基于统计的网页文本提取方法基于统计的方法主要用于提取新闻网页的文本。该方法的原理是网页的文本信息只能定位在网页中的<table>标签节点中。该方法的基本步骤是：第一步，去除页面的噪声，根据网页标签将网页对应地表示为一棵树；细绳; 第三步比较每个节点的字符数，通常选择字符数最多的节点作为网页的正文。该方法的优点是利用了新闻网页的特点，通用性好，实现简单，不需要为不同的网页构建不同的模板，不需要样本学习，时间复杂度低。但缺点是该算法只适用于网页中所有文本信息都放在一个<table>节点中的情况，对于有多个<table>文本的网页效果不佳。由于微博、轻博客等的兴起，产生了越来越多的复杂格式和短文本网页，这种方法的局限性也更加明显。现有方法中网页文本提取效果对比表：总体而言，目前网页文本提取和网页相似度计算相关的算法还处于主要针对传统互联网网页的阶段，无论是网页文本提取还是网页相似度的研究没有认真考虑移动互联网网页内容的新特点，主要有以下缺点：(1)移动互联网的网页结构越来越复杂，涉及的方式越来越多，传统的中引入的网页文本提取算法的局限性 2.2 的@2.2 部分变得越来越明显。(2)由于短文本网页太多，一些文本相似度研究算法的理论基础不复存在，算法的准确性降低，已经不能满足*敏*感*词*数据的需求利用。

　　技术实现思路

　　该专利技术要解决的问题是提供一种基于主题相似度的网页文本提取和比较方法。为了解决上述方法的问题，专利技术提供了一种网页文本的提取和比对方法，包括以下步骤：步骤A：根据网页的特定标签，判断该网页是否为一个文本页面；步骤 B：识别平行网页；步骤B还包括：特征信息提取子步骤和支持向量机分类子步骤。步骤A还可以包括以下子步骤：步骤1：对网页进行预处理，构建HTML树。步骤 2：修剪 HTML 树；第三步：获取网页的主题；第四步：提取块中的字符串内容；Step 5：计算一个block中topic S和content y的距离；第 6 步：比较编辑距离 L 和 max(p, q)。步骤2还可以包括以下子步骤：根据<table>标签，对不收录文本和链接信息的叶子节点进行屏蔽和移除。所述步骤5还可以包括：对中文进行分词，使用的Levenshtein距离见公式（2)和公式（3)）：采用改进的编辑距离计算HTML标签的相似度分类顺序：编辑距离是指在两个字符串之间将一个字符串转换成另一个字符串所需的最少编辑操作次数，编辑操作包括将一个字符替换为另一个字符、插入一个字符和删除一个字符；根据标签的分类特性，将改进的编辑距离定义为通过删除、插入和替换不同类型的标签，将一个字符串的不同类型标签转换为另一个字符串的最小操作成本；其中，删除和插入的代价为1，类内替换操作的代价为0，类间替换操作的代价为1.5，即：插入操作：ct(t ) = 1; 删除操作：Cd(t) = 1；取￥1^标签序列1=和2=使用动态规划计算改进的编辑距离矩阵M，矩阵元素算法M：矩阵右下角的元素M为&和的改进编辑距离&，则标签结构信息Dt：Dt=M/Max(A +l, B+l)。改进的编辑距离定义为通过删除、插入和替换不同类型的标签将一个字符串的不同类型标签转换为另一个字符串的最小操作成本；其中，删除和插入的代价为1，类内替换操作的代价为0，类间替换操作的代价为1.5，即：插入操作：ct(t ) = 1; 删除操作：Cd(t) = 1；取￥1^标签序列1=和2=使用动态规划计算改进的编辑距离矩阵M，矩阵元素算法M：矩阵右下角的元素M为&和的改进编辑距离&，则标签结构信息Dt：Dt=M/Max(A +l, B+l)。改进的编辑距离定义为通过删除、插入和替换不同类型的标签将一个字符串的不同类型标签转换为另一个字符串的最小操作成本；其中，删除和插入的代价为1，类内替换操作的代价为0，类间替换操作的代价为1.5，即：插入操作：ct(t ) = 1; 删除操作：Cd(t) = 1；取￥1^标签序列1=和2=使用动态规划计算改进的编辑距离矩阵M，矩阵元素算法M：矩阵右下角的元素M为&和的改进编辑距离&，则标签结构信息Dt：Dt=M/Max(A +l, B+l)。

　　步骤B还可以包括：特征信息提取子步骤和支持向量机分类子步骤。特征信息提取子步骤还包括：建立特征信息：特征信息包括网页HTML标签结构信息和基于内容的文本长度信息、文本句号信息和数序信息。HTML标签根据其在网页布局、显示和链接中的功能特点分为结构标签、格式标签和无关标签两类：结构标签：blockquote、body、dir、div、dt、h、head、hr , li , menu, p, q, to We, tbody, td, tfoot, th, thead, tr, ul; 格式标签：abbr、acronym、b、big、center、cite、code、dfh、em、font、i、pre、s、small、span、strike、strong、style、sub、sup、tt、u；无关标签：applet、base、basefont、bdo、br、button、del、kbd、link、meta、samp、script、var、a、fieldset、form、input、is index、label、legend；计算结构对称性时删除。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特征，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。br, button, del, kbd, link, meta, samp, script, var, a, fieldset, form, input, is index, label, legend; 计算结构对称性时删除。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特征，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。br, button, del, kbd, link, meta, samp, script, var, a, fieldset, form, input, is index, label, legend; 计算结构对称性时删除。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特点，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。是索引、标签、图例；计算结构对称性时删除。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特征，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。是索引、标签、图例；计算结构对称性时删除。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特点，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特点，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。分类的 HTML 标签序列的相似度是使用改进的编辑距离计算的：编辑距离是两个字符串之间将一个字符串转换为另一个字符串所需的最小编辑操作数；编辑操作包括用另一个字符替换一个字符、插入一个字符和删除一个字符；根据标签的分类特征，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。插入字符和删除字符；根据标签的分类特点，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。插入字符和删除字符；根据标签的分类特点，改进的编辑距离定义为：一个字符串的不同类型标签通过删除、插入和替换转换为另一个字符串。不同类型标签的运营成本最低。

　　为了解决上述技术问题，本专利技术还提供了一种网页文本提取比较系统，包括以下模块：模块A：根据特定标签判断网页是否为文本页面对于网页；模块B：平行网页比较步骤B还包括：特征信息提取子步骤和支持向量机分类子步骤。模块A还可以包括以下子模块：预处理子模块：用于对网页进行预处理，构建HTML树。修剪子模块：用于修剪HTML树；获取主题子模块：用于获取网页的主题；提取块

　　【技术保护点】

　　一种网页文本提取比较方法，包括以下步骤：步骤A：根据网页的特定标签判断网页是否为文本页面。步骤B：识别平行网页；步骤B还包括：特征信息提取子步骤和SVM分类子步骤。

　　【技术特点总结】

　　【专利技术性质】

　　技术研发人员：不公布发明人，

　　申请人（专利权）持有人：，

　　类型：发明

　　国家省：山东；37

　　下载所有详细的技术数据我是该专利的所有者

0

2022-01-08

网页新闻抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页新闻抓取(基于统计的网页正文提取方法的方法基于网页模板一类)

0 个评论

发起人