网页视频抓取软件排行(一种互联网技术领域的系统系统专利介绍-乐题库)
优采云 发布时间: 2021-12-18 21:04网页视频抓取软件排行(一种互联网技术领域的系统系统专利介绍-乐题库)
专利名称:基于排名的互联网排名抓取系统*敏*感*词*法网站
技术领域:
本发明涉及互联网数据挖掘技术领域的系统,尤其涉及一种基于排名网站的互联网排名抓取系统。
背景技术:
互联网是目前世界上最大的信息来源,它收录海量的数据和知识。该信息可以以多种方式呈现在网页上,例如纯文本、图片、列表和表格。其中,后两者相比其他方法具有结构化的组织形式,因此它们所收录的信息更具有实际应用价值。因此,网络列表和表格的提取和处理成为互联网和数据挖掘领域的一个重要课题。排行榜(英文名Top_k List)是一个特殊的网络排行榜。它被定义为基于固定标准的字段排名的固定数量。典型的例子包括“世界上最有影响力的20位科学家”、“北京最高的十座建筑”等。该领域可以包括各种概念(如汽车、城市、作家等);标准可以根据主观评价(如最好、最美),也可以根据客观事实(如最高、最快等);固定数量是指在榜单标题中指定了上榜条目的数量(如前十名、前20名等)。收录排名内容的页面称为排名页面。典型的排名页面包括“世界十大海滩”、“不容错过的十部经典电影”等。与一般的网络排行榜相比,网络排行榜具有更高的价值。首先,在线排行榜数量庞大,种类丰富。估计目前有超过200万个英文的网络排名网站,而且随着互联网的快速发展,这个数字还在快速增长。二是在线排名质量高。普通网络列表中只有一小部分收录有用的信息,并没有固定的含义。相比之下,排行榜语义清晰,形式规范,信息量更大。第三,排行榜收录排名信息,因此我们可以比较列表中不同位置的列表项的优劣。最后,关于排名的信息更具影响力。一般来说,排名的作者或编辑往往是该领域的专家,因此享有一定的权威;另一方面,人们对排名信息更感兴趣。因此,批量获取和分析在线排名是一项非常有意义的工作,数据可用于帮助构建知识库或自动问答系统(Q/A 机)。但目前这方面的工作相对较少,无法有效利用现有的网页表单爬取系统对网页进行排名处理。
发明内容
本发明的目的是针对现有技术的不足,提供一种基于排名网站的互联网排名抓取系统。根据本发明的一个方面,提供了一种基于排名网站的互联网排名列表抓取系统,包括网页预处理模块、网页标题识别模块、候选列表抓取模块、排名列表选择模块,以及排行榜内容后处理模块,候选列表抓取模块的输入是网页预处理模块和网页标题识别模块的输出。网页预处理模块用于根据文件对象模型将HTML格式的输入网页解析成树状数据结构提供给网页标题识别模块和候选列表抓取模块进行后续处理;网页标题识别模块用于对网页标题进行语法分析,然后用基于机器学习方法生成的模型进行分类,判断该网页是否为排名网页,如果是则判断网页为正常网页,系统输出判断结果并停止退出;如果判断该网页为排名网页,则提取域、标准、网页中的列表项数和时间位置信息提供给候选列表抓取模块进行后续处理;候选列表捕获模块用于根据网页预处理模块中获取的树状数据结构的HTML标签路径进行聚类分析,得到多个候选列表,候选列表中的列表项数应与在网页标题识别模块中提取的列表项数。如果没有合适的候选名单,则判定排名抓取失败,系统输入结果并停止退出。否则,将执行排名。选择模块进行后续处理;排序选择模块用于根据多个评价标准对多个候选列表进行评分,选择得分最高的候选列表作为输入网页的排序列表。评价标准包括页面标题的相关程度、网页中的空间位置、规则模式匹配等;排名内容后处理模块用于对排名选择模块选择的排名内容进行进一步处理,将每个列表项的实例名称与其对应的属性特征进行比较,分离后最终得到关系数据表。网页中的空间位置,规则模式匹配;排名内容后处理模块用于对排名选择模块选择的排名内容进行进一步处理,将每个列表项的实例名称与其对应的属性特征进行比较,分离后最终得到关系数据表。网页中的空间位置,规则模式匹配;排名内容后处理模块用于对排名选择模块选择的排名内容进行进一步处理,将每个列表项的实例名称与其对应的属性特征进行比较,分离后最终得到关系数据表。
优选地,网页标题识别模块在对网页进行分类之前对标题进行预处理。预处理具体是使用正则表达式匹配的方法去除标题的次要部分,确定标题的主要部分;英语词法分析,获取词序中每个词的词性和原型,形成词、词性、原型的特征表。优选地,网页标题识别模块包括分类器。分类器使用预先训练好的模型对输入的特征表进行分析,结果是输入词序列对应的标签序列,其中K表示列表项的个数,F表示排序的字段,C表示排名的标准。分类结果的处理分为两种情况。如果标注序列中收录K,则表示输入网页为排名网页,需要将结果以五元组的形式排序为<number, field , Standard, Time, Location>,并触发执行候选列表捕获模块的;否则,确定该页面不是排名页面,系统退出。优选地,分类器的模型是基于条件随机域训练获得的。优选地,HTML标签路径的含义是在树状数据结构中,从任意一个节点到根节点的路径具体表示为路径中各个节点的HTML标签的连接。基于HTML标签路径的聚类分析由遍历网页中的所有节点决定,并且具有相同标签路径的节点聚集形成多个类。其中,收录K个节点的类为候选排名列表,K为网页标题识别模块中得到的排名。列表项的数量;如果没有找到候选列表,则确定列表获取失败,系统退出。优选地,所述网页标题的相关度具体是指根据网页排名涉及的字段获取该字段的全部或部分实例,其中每个候选列表L的具体计算公式为 如果没有找到候选列表,则确定列表获取失败,系统退出。优选地,所述网页标题的相关度具体是指根据网页排名涉及的字段获取该字段的全部或部分实例,其中每个候选列表L的具体计算公式为 如果没有找到候选列表,则确定列表获取失败,系统退出。优选地,所述网页标题的相关度具体是指根据网页排名涉及的字段获取该字段的全部或部分实例,其中每个候选列表L的具体计算公式为
权限请求
1.一种基于排名的互联网排名爬取系统网站,其特点是包括依次连接的网页预处理模块、网页标题识别模块、候选列表爬取模块、排名选择模块以及排行榜内容后处理模块。候选列表抓取模块的输入是网页预处理模块和网页标题识别模块的输出。网页预处理模块用于根据文件对象模型State数据结构将HTML格式的输入网页解析为树状结构,提供页面标题识别模块和候选列表抓取模块进行后续处理;页面标题识别模块用于对页面标题进行语法分析,然后使用基于机器学习方法生成的模型对页面进行分类判断是否为排名网页,如果判断为正常网页,则系统输出判断结果并停止退出;如果判断该网页为排名网页,则提取网页中排名的字段、标准、列表项数和时间位置信息提供给候选列表抓取模块进行后续处理;候选列表捕获模块用于根据网页预处理模块中获取的树状数据结构的HTML标签路径进行聚类分析,得到多个候选列表,候选列表中的列表项数应与网页标题识别模块中提取的列表项数相同。如果没有合适的候选列表,则确定排名没有被捕获,系统将输入结果并中止退出。否则,排名列表选择模块进行后续处理;排序选择模块用于根据多个评价标准对多个候选列表进行评分,选择得分最高的候选列表作为输入网页的排序列表。评价标准包括网页标题的关联程度、网页中的空间位置、规则模式匹配等;
2.根据权利要求1所述的基于排名网站的互联网排名爬取系统,其特征在于,所述网页标题识别模块在对网页进行分类之前对标题进行预处理。具体来说,采用正则表达式匹配的方法去除标题的次要部分,确定标题的主要部分;对主体部分进行英语形态分析,得到词序列中每个词的词性和原型,并结合词、词性、原型构成特征表。
3.根据权利要求2所述的基于排名网站的互联网排名爬取系统,其特征在于,所述网页标题识别模块包括分类器,所述分类器采用预训练模型对输入进行评估分析的特征表,结果为输入词序列对应的标注序列,其中K代表列表项的个数,F代表排序的领域,C代表排序的标准。分类结果有两种处理方式。如果标签序列收录K,则表示输入网页为排名网页,需要将结果排序为<数字、字段、标准、时间、位置>的五元组形式,并触发候选列出要执行的捕获模块;否则,
4.根据权利要求3所述的基于排名的互联网排名抓取系统网站,其特征在于,所述分类器的模型是基于条件随机域训练获得的。
5.根据权利要求1所述的基于排名的互联网排名爬取系统网站,其中HTML标签路径的含义是,在树状数据结构中,任意节点到根节点的路径为具体表示为路径中各个节点的HTML标签的连接;基于HTML标签路径的聚类分析是遍历网页中的所有节点,将标签路径相同的节点聚类形成多个类,其中收录K个节点的类别为候选排行榜列表,K为网页标题识别模块获取的排行榜列表项数;如果没有找到候选列表,则确定列表获取失败,系统退出。
6.根据权利要求1所述的基于排名网站的互联网排名爬取系统,其特征在于,具体根据网页中排名涉及的领域获取网页标题的相关度本领域的全部或部分示例,其中每个候选列表L的具体计算公式为
7.根据权利要求1所述的基于排名的互联网排名爬取系统网站,其特征在于,具体根据候选列表的字体大小和字符长度估计网页中的空间位置大小候选列表在网页上的占有率,具体计算公式为
8.根据权利要求1所述的基于排名网站的互联网排行榜爬取系统,其特征在于,排行榜内容后处理模块具体统计排行榜中某些列表项的公共分隔符的个数。如果你发现某个分隔符在每个列表项中出现的频率相同,就用这个作为分隔符对列表项进行拆分,然后对拆分后的每一列进行下一轮的操作,直到出现相同的分隔符频率找不到。
9.根据权利要求1所述的基于网站排名的互联网排行榜爬取系统,其特征在于,所述规则模式匹配,具体基于一些基于经验的规则,对候选列表进行模式匹配,并判断是否候选列表是根据匹配结果的排行榜列表。规则包括奖励和惩罚。奖励包括 1)候选列表的标签路径收录未强调的标签,<h2>和<strong>;2)候选列表中的每个列表项都以序号开头;3)候选名单以表格的形式组织;惩罚包括1)在候选列表中多次出现的重复列表项;2)候选列表中某个列表项的内容过多或过少。
全文摘要
本发明公开了一种互联网排名抓取系统,包括网页预处理模块,基于文件对象模型将HTML格式网页解析为树状数据结构(DOM Tree);判断网页是否为排名网页的标题识别模块;基于HTML标签路径聚类分析的候选名单排行榜选择模块;基于内容匹配和网页布局的排行榜选择模块;和排行榜内容后处理模块。本发明可以快速准确地自动提取互联网排行榜的专网名单,有效挖掘其潜在价值。
文件编号 G06F17/30GK103020286SQ20121058097
公布日期 2013 年 4 月 3 日 申请日期 2012 年 12 月 27 日 优先权日期 2012 年 12 月 27 日
发明人朱启立、张志贤申请人:上海交通大学