汇总:Pigat:一款被动信息收集聚合工具

优采云 发布时间: 2022-10-21 15:19

  汇总:Pigat:一款被动信息收集聚合工具

  0x00 前言

  Pigat是被动情报采集聚合工具,翻译为被动信息采集和聚合工具。既然叫聚合工具,就是说该工具结合了多种被动信息采集工具,从而提高了正常信息采集的效率。

  早在半个月前,就萌生了开发这个工具的想法,但一直没有时间。最近刚好有时间,就简单写一下。

  因为本人没有太多的开发经验,难免这个工具需要改进,所以希望大家多多反馈这个工具的问题,一起完善这个工具。

  0x01 工具原理及功能概述

  这个工具的原理很简单。用户输入目标url,然后通过爬虫获取相关被动信息,采集网站关于url的信息,最后展示出来。

  目前,该工具有8个功能。原工具有7个功能,分别是采集目标资产信息、cms信息、DNS信息、归档信息、IP地址、子域信息、whois信息。8个功能:如果程序中对目标URL的两次IP查询结果相同,则查询IP的端口,即端口查询功能。

  

  0x02 工具好用 1.查看帮助信息

  # python pigat.py -h

  2.指定获取信息的url

  如果只指定url参数,不指定其他参数,则默认获取url的所有信息

  # python pigat.py -u teamssix.com

  

  3.指定url获取单项信息

  # python pigat.py -u baidu.com --assert

  4.指定url获取多条信息

  # python pigat.py -u teamssix.com --ip --cms

  0x03 工具获取

  该工具的下载地址可在个人公众号(TeamsSix)回复“pigta”获取。

  汇总:新闻采集

  

  新闻采集器是一个从多个新闻源网页中提取非结构化新闻文章并保存到结构化数据库中的软件。主要功能是根据用户自定义任务配置,批量准确提取目标网络媒体栏目中的新闻或文章,并转化为结构化记录(标题、作者、内容、采集时间、来源、分类、相关图片等),存储在本地数据库供内部使用或外部网络发布,快速实现外部信息获取。主要技术动态采集器核心技术是模式定义和模式匹配。模式属于人工智能的术语,意为对物体前身所积累的经验的抽象和升华。简单的说,它是从反复发生的事件中发现和抽象出来的规则,是解决问题经验的总结。只要是一遍又一遍地重复的东西,就可能有规律。因此,要使新闻采集器 起作用,目标网站 必须具有重复出现的特征。目前大部分网站都是动态生成的,这样同模板的页面会收录相同的内容,而新闻采集器使用相同的内容来定位采集数据. news采集器 中的大多数模式不会被程序自动发现。目前几乎所有的news采集器产品都需要手动定义。但是模式本身是一个非常复杂和抽象的内容,所以开发者的全部精力都花在了如何让模式定义更简单、更准确上,这也是衡量新闻采集器竞争力的指标。但是我们如何描述模式呢,目前的技术主要有两种方式:正则表达式定义和文档结构定义。

  

  正则表达式定义正则表达式定义是目前的主流技术,主要以优采云采集器为代表。这种技术简单且高度灵活。但用户操作复杂。由于这种模式作用于网页的源代码,匹配结果受代码布局格式影响较大,而且不够直观,对更复杂的页面结构几乎无能为力。已经有数款产品使用辅助工具来降低用户操作的难度。文档结构定义 文档结构定义应该说是目前最先进的技术,具有一定的模式学习能力。此模式适用于文档级别,与页面源代码中的正则表达式不同。所谓文档层,是指源码运行后生成的实际对象,即用户在浏览器中看到的内容。因此,运营可视化是该技术与生俱来的能力。由于匹配文档结构,不受页面源代码影响,用户定义更直观,程序可以根据文档对象获取更多逻辑特征信息,匹配更准确,通用性更强更强。该技术已在学术研究论文中提出,多个实验室已开发出此类产品。但真正的商业应用很少。目前,只有 DM Labs 推出的 Vision Vision采集器[1] 对公众开放。该产品不仅具有较高的技术起点,而且在用户层*敏*感*词*有独特的实时用户操作。向导功能也很神奇。该技术将专业级操作转变为 傻瓜式 操作。真正让一切成为可能的是科学!代表远景新闻采集器;乐思新闻采集器; 环球新闻采集器; 新浪新闻采集器

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线