采集工具免责说明(Url采集器批量采集的脚本工具使用方法十分方便,全视图模块)

优采云 发布时间: 2021-12-22 20:14

  采集工具免责说明(Url采集器批量采集的脚本工具使用方法十分方便,全视图模块)

  Url采集 工具是一个非常有用的 url 批处理 采集 脚本工具。该软件可以帮助用户在百度、360搜索、搜狗搜索等搜索引擎上搜索关键词热门搜索。内容进行采集。另外免费版的Url采集器还可以对单个URL进行采集,功能非常全面。

  Url采集器 工具使用起来非常方便。全视图模块的操作方式,只需点击鼠标即可完成。有需要的朋友赶紧下载吧。

  网址采集工具说明

  该程序主要用于安全渗透测试项目,以及批量评估各种cms系统0DAY漏洞的影响。也是批量采集对网站感兴趣的小程序~~

  测试环境为Python 2.7.x 如果需要python3版本可以自己修改,或者在我的博客留言

  目前只有采集百度搜索引擎结果可用。并且每页默认显示50条记录。您可以自定义要采集 的页数。

  如果想让采集关键词成为“黑客”相关的网站,采集百度结果的前3页,输入如下:

  请输入关键词:hacker

  搜索页数:3

  

  网址采集工具功能

  1:Url采集工具获取百度搜索结果的真实URL地址

  2:可以忽略不需要的常用网站,比如忽略百度翻译,等等所有百度相关结果,加入数组即可。程序默认忽略了很多项,比如

  filter_array1 = ['','','','','','','','','']

  filter_array2 = ['','','']

  filter_array3 = ['','','','','','','','','']

  filter_array4 = ['','','','']

  filter_array5 = ['','','','']

  3:实时显示采集到达的网页的【真实网址】和【标题】。前面的【ID】对应当前页面百度结果的X数据

  4:自动将结果保存到当前目录下的txt文件中,查找文件名关键词.txt为了方便导入其他工具,txt中只记录了采集的URL文件。如果需要同时记录标题,删除代码中的注释即可

  5:自动去除重复记录

  6:统计采集项总数(找到143个),有效项数(91个检查),过滤项数(52个过滤器),过滤重复URL数(9个删除)

  7:开源,任何人都可以下载使用。由于本人能力有限,如果有好的建议和修正,希望共同进步

  8:跨平台,不存在捆绑后门的风险。以前网上的百度网址采集软件大多是WINDOWS下的可执行文件,现在百度更新采集后就不正常了。

  9:程序会不断更新

  网址采集 工具更新

  由于时间关系,没有做优化。很多自定义参数也使用默认值,下个版本会增加自定义参数

  之后,必应搜索引擎和goole引擎的采集功能将陆续加入,并与百度的合并。如果需求增加,也增加多线程或多进程扫描

  如果由于百度更新导致找不到采集的内容,可以在我的博客中联系我进行修改

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线