网页采集器的自动识别算法(采集器的识别流程及方法)

优采云 发布时间: 2022-01-18 06:19

  网页采集器的自动识别算法(采集器的识别流程及方法)

  1.一种网页内容自动采集方法,其特征在于,具体步骤包括: 步骤一、根据需要,搜索内容采集的网页URL,并网页位于网站匹配的集合采集器;步骤二、当有匹配的采集器时,执行采集器获取网页内容;当没有匹配的collector时,搜索不匹配的采集器集合,从不匹配的采集器集合中选择采集器执行采集器获取网页内容;采集器的识别过程包括: 步骤1、访问目标网页,获取页面字节流。步骤 2、 将字节流解析为 dom 对象,将 dom 中的所有元素映射到 html 标签,并记录html标签的所有属性和值;步骤3、通过dom对象中的title节点,确定title范围,其中title节点的Xpath为://HTML/HEAD/TITLE;通过搜索h节点,比较ti 11 e节点,确认网页的标题xpath,其中h节点的xpath为: //BODY//* [name () =, H*' ]; 当ti 11 e 节点的值收录h节点的值时,h节点为网页的标题节点,h节点的xpath为网页标题的xpath;步骤4、以h节点为起点寻找发布时间节点;步骤5、以h节点为起点,扫描h节点,寻找祖父节点对应的所有子节点,找到文本值最长的节点,并将其确定为页面文本节点;Step6、确认作者节点,使用“作者节点特征匹配”的方法从h节点开始,扫描h节点的父节点的所有子节点,匹配子节点的文本值是否节点符合作者节点特征。如果是,确认子节点是Author节点;当作者节点通过“作者节点特征匹配”方法确认不成功时,通过“位置猜测”方法确认作者节点:以发布节点为起点,分析发布节点在其兄弟节点中的位置节点确定作者节点: a.如果发布节点的兄弟节点有多个,并且发布节点排在多个节点的一半之前,确定发布节点的下一个兄弟节点为作者节点;湾。如果发布节点为兄弟节点有多个,且发布节点排在多个节点的一半之后,则确定发布节点的上一个兄弟节点为作者节点;步骤7、 根据网页标题、发布时间节点、文本节点和作者节点,识别与网页内容匹配的仪表;三、采集步骤成功后,输出网页内容采集的结果;当采集不成功时,返回第2步,重新选择电表采集器。将发布节点排在多个节点的一半之后,则确定发布节点的上一个兄弟节点为作者节点。步骤7、 根据网页标题、发布时间节点、文本节点和作者节点,识别与网页内容匹配的仪表;三、采集步骤成功后,输出网页内容采集的结果;当采集不成功时,返回第2步,重新选择电表采集器。将发布节点排在多个节点的一半之后,则确定发布节点的上一个兄弟节点为作者节点。步骤7、 根据网页标题、发布时间节点、文本节点和作者节点,识别与网页内容匹配的仪表;三、采集步骤成功后,输出网页内容采集的结果;当采集不成功时,返回第2步,重新选择电表采集器。三、采集步骤成功后,输出网页内容采集的结果;当采集不成功时,返回第2步,重新选择电表采集器。三、采集步骤成功后,输出网页内容采集的结果;当采集不成功时,返回第2步,重新选择电表采集器。

  2.根据权利要求1所述的网页内容自动采集的方法,其特征在于,所述步骤四中确定发布时间节点的具体方法为: 搜索时间节点,如果找到,完成确认发布的时间节点;否则,继续从h节点的所有兄弟节点和所有子节点中搜索时间节点,如果找到,则完成对已发布时间节点的确认。'

  3.根据权利要求1所述的网页内容自动采集的方法,其特征在于,所述步骤4中的发布时间节点的确认算法具体为: 匹配节点的值,若能匹配命中,则该节点被确认为发布时间节点。

  4.根据权利要求1所述的自动网页内容采集的方法,其特征在于,在步骤5中确定网页文本节点的过程中,还包括: 去噪处理,对排除不合理节点,噪声节点标准具体为:(1)其中节点的值收录JavaScript特征;(2)其中节点的值收录标点符号个数小于a的节点设置阈值。

  5.根据权利要求1所述的自动网页内容的方法采集,其特征在于,所述步骤6中判断作者节点的方法包括: 1)节点的值收录设置的特征字符串,包括“作者:”、“来源:”或“责任编辑:”;2) 节点的值长度小于阈值。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线