最新版本:帝国cms采集图文教程(上,中,下)全集

优采云 发布时间: 2022-10-21 16:24

  最新版本:帝国cms采集图文教程(上,中,下)全集

  上下页面导航是分页采集的难点。他需要所有页面都符合分页规律。不熟悉的可以用第1页和第2页的代码对比分析再判断。分页正则表达式。

  1、我们以“爱丽网内容分页()”为例:

  可以看到这条新闻共有20页。

  2.查看源代码:

  本页除已为采集的第1页外,还包括第2、3、4、5、6、7、8、20页,第9~19页未列出。这时候我们使用第1页和第2页的代码进行对比分析,确定分页规律:

  (1) 第 1 页上的代码:

  

  (2) 第 2 页上的代码:

  从这两张图片可以看出,它们的“寻呼区起始码”、“寻呼链接”格式、“寻呼区结束码”是相同的,那么就可以确定“寻呼区规则”和“寻呼链接规则”。

  3. 获取分页区域规则([!--smallpageallzz--]):

  4.获取分页链接正则([!--pageallzz--]):

  

  5、为了方便教程的展示,我在newstext中用采集的标题代替了采集的内容,预览结果:

  预防措施:

  首先,在第一页的HTML代码中,当列出所有内容分页链接时,我们使用“list all”。在第一页的HTML代码中,如果内容分页链接没有全部列出,我们使用“上下页面导航”。

  其次,在使用所有列表时,采集规则正确但出现莫名其妙的重复分页。这时候就可以使用代入法将其过滤掉(我们下节讲)。

  第三,使用上下页导航时,总是选择第一页,其他页面连影子都没有。这是因为分页区规则([!--smallpagezz--])截取错误。

  四、在使用上下翻页导航的时候,可以采集去前几页,但是后面前几页都重复到最后,这也是因为分页区域是有规律的([! --smallpagezz--]) 截取错误,截取范围过大,导致前几个页面链接被重复截取。

  好了,本次演讲就到此为止。下一页主要介绍帝国cms采集的过滤和替换。

  心得:红蓝攻防演练资产收集小工具|附地址

  红蓝攻防演练资产采集小工具,用于生存检测、标题头获取、语料提取、常用web端口检测、简单中间识别、去重等,易于过滤,有价值的资产。

  1.高速资产存活检测,获取标题<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />2.常见Web端口访问测试/获取标题 lxml方式速度较快<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />3.资产去重<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />4.随机UA<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />5.C段web端口探测/获取标题<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />6.C段识别<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />7.shiro识别<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />8.简单中间件识别<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" /><br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />适用用于外网资产梳理<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" /><br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" /><p style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;">TODO:

  <br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />1.在不发送更多请求的情况下模糊识别weblogic/jboss/jenkins/zabbix/activeMQ/solr/gitlab/spring等<br style="outline: 0px;max-width: 100%;visibility: visible;box-sizing: border-box !important;overflow-wrap: break-word !important;" />

  2.常见端口测试(22/445/3389/3306/6379/1521)

  <br style="outline: 0px;max-width: 100%;box-sizing: border-box !important;overflow-wrap: break-word !important;" /></p>

  项目地址:

  

  如有侵权请私聊公众号删除文章

  好文章推荐

  

  欢迎来到系统安全运维

  五年甲方安全心得,坚持每天学习分享,请各位大佬们底部给我“再看一遍”,非常感谢

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线