网页采集器的自动识别算法(采集器的识别流程及方法)

优采云发布时间: 2022-01-18 06:19

　　1.一种网页内容自动采集方法，其特征在于，具体步骤包括：步骤一、根据需要，搜索内容采集的网页URL，并网页位于网站匹配的集合采集器；步骤二、当有匹配的采集器时，执行采集器获取网页内容；当没有匹配的collector时，搜索不匹配的采集器集合，从不匹配的采集器集合中选择采集器执行采集器获取网页内容；采集器的识别过程包括：步骤1、访问目标网页，获取页面字节流。步骤 2、将字节流解析为 dom 对象，将 dom 中的所有元素映射到 html 标签，并记录html标签的所有属性和值；步骤3、通过dom对象中的title节点，确定title范围，其中title节点的Xpath为://HTML/HEAD/TITLE；通过搜索h节点，比较ti 11 e节点，确认网页的标题xpath，其中h节点的xpath为： //BODY//* [name () =, H*' ]; 当ti 11 e 节点的值收录h节点的值时，h节点为网页的标题节点，h节点的xpath为网页标题的xpath；步骤4、以h节点为起点寻找发布时间节点；步骤5、以h节点为起点，扫描h节点，寻找祖父节点对应的所有子节点，找到文本值最长的节点，并将其确定为页面文本节点；Step6、确认作者节点，使用“作者节点特征匹配”的方法从h节点开始，扫描h节点的父节点的所有子节点，匹配子节点的文本值是否节点符合作者节点特征。如果是，确认子节点是Author节点；当作者节点通过“作者节点特征匹配”方法确认不成功时，通过“位置猜测”方法确认作者节点：以发布节点为起点，分析发布节点在其兄弟节点中的位置节点确定作者节点： a．如果发布节点的兄弟节点有多个，并且发布节点排在多个节点的一半之前，确定发布节点的下一个兄弟节点为作者节点；湾。如果发布节点为兄弟节点有多个，且发布节点排在多个节点的一半之后，则确定发布节点的上一个兄弟节点为作者节点；步骤7、根据网页标题、发布时间节点、文本节点和作者节点，识别与网页内容匹配的仪表；三、采集步骤成功后，输出网页内容采集的结果；当采集不成功时，返回第2步，重新选择电表采集器。将发布节点排在多个节点的一半之后，则确定发布节点的上一个兄弟节点为作者节点。步骤7、根据网页标题、发布时间节点、文本节点和作者节点，识别与网页内容匹配的仪表；三、采集步骤成功后，输出网页内容采集的结果；当采集不成功时，返回第2步，重新选择电表采集器。将发布节点排在多个节点的一半之后，则确定发布节点的上一个兄弟节点为作者节点。步骤7、根据网页标题、发布时间节点、文本节点和作者节点，识别与网页内容匹配的仪表；三、采集步骤成功后，输出网页内容采集的结果；当采集不成功时，返回第2步，重新选择电表采集器。三、采集步骤成功后，输出网页内容采集的结果；当采集不成功时，返回第2步，重新选择电表采集器。三、采集步骤成功后，输出网页内容采集的结果；当采集不成功时，返回第2步，重新选择电表采集器。

　　2.根据权利要求1所述的网页内容自动采集的方法，其特征在于，所述步骤四中确定发布时间节点的具体方法为：搜索时间节点，如果找到，完成确认发布的时间节点；否则，继续从h节点的所有兄弟节点和所有子节点中搜索时间节点，如果找到，则完成对已发布时间节点的确认。'

　　3.根据权利要求1所述的网页内容自动采集的方法，其特征在于，所述步骤4中的发布时间节点的确认算法具体为：匹配节点的值，若能匹配命中，则该节点被确认为发布时间节点。

　　4.根据权利要求1所述的自动网页内容采集的方法，其特征在于，在步骤5中确定网页文本节点的过程中，还包括：去噪处理，对排除不合理节点，噪声节点标准具体为：(1)其中节点的值收录JavaScript特征；(2)其中节点的值收录标点符号个数小于a的节点设置阈值。

　　5.根据权利要求1所述的自动网页内容的方法采集，其特征在于，所述步骤6中判断作者节点的方法包括： 1)节点的值收录设置的特征字符串，包括“作者：”、“来源：”或“责任编辑：”；2) 节点的值长度小于阈值。

0

2022-01-18

网页采集器的自动识别算法

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页采集器的自动识别算法(采集器的识别流程及方法)

0 个评论

发起人

AI时代内容工厂

网页采集器的自动识别算法(采集器的识别流程及方法)

0 个评论

发起人

相关问题