PythonURL采集工具 V2.1
优采云 发布时间: 2020-08-10 19:22软件说明
根据关键词,对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序(支持英文)。
程序主要运用于安全渗透测试项目,以及批量评估各种CMS系统0DAY的影响程度,同时也是批量采集自己获取感兴趣的网站的一个小程序~~
可手动从搜索引擎采集相关网站的真实地址与标题等信息,可保存为文件,自动消除重复URL。同时,也可以自定义忽视多条域名。
更新说明
2.0新版,对程序进行了重画升级,模块化开发,方便后期的扩充;
2.0新版,内置的搜索引擎降低。包括百度,搜狗,360搜索(新降低支持的搜索引擎比较容易);
2.0新版,增加了配置文件,无需修改代码即可自定义。方便菜鸟使用;
使用疗效
测试环境为Mac Pro 10.12
测试环境系统为Mac Pro 10.12
测试环境python版本为2.7
如果提示模块不存在,则按照提示进行安装!
一般没有安装tld模块,使用 pip install tld 进行安装。或者官网下载()
使用说明
为了避免采集过快引起封IP之类的事情,程序早已设置了延后时间。建议不要追求速率,免得换IP。
2.0版本的文件为superl-url.py,如果须要使用老版本的,则运行search-url-old.py
测试环境为Python2.7.x,如果须要python3版本的,可以自行更改。
如果要采集关键词为“hacker”的相关网站,采集搜索结果的前3页,则输入如下:
please input keyword:hacker
Search Number of pages:3
配置文件说明
[global]
savefile = True ;是否保存文件
sleeptime = 30 ;延迟30秒
[filter]
filter_urlparam = True ;是否清除URL参数
filter_url = True ;是否过滤网址
filter_title = True ;是否过滤标题
[log]
write_title = True ;是否把标题也写入日志文件
write_name = True ;是否把搜索引擎名称也写入日志文件
[search]
baidu_search = True ;是否开启百度搜索
sougou_search = True ;是否开启搜狗搜索
so_search = True ;是否开启360搜索
baidu_page_size = 50 ;百度结果每页显示50条
sougou_page_size = 50 ;搜狗结果每页显示50条
程序特征
支持同时采集多个搜索引擎(已外置了百度,搜狗,360),结构模块化,很方便进行扩充,可以无限添加。
获取到的是搜索引擎的搜索结果的真实URL地址
可以忽视不需要的常见网站,如忽视百度翻译,等等所有百度相关结果,给链表添加即可。程序早已默认忽视了好多条,也支持按照自己的需求进行自定义。如filter_array1 = ['','','','','','','','','']
filter_array2 = ['','','']
filter_array3 = ['','','','','','','','','']
filter_array4 = ['','','','']
filter_array5 = ['','','','']
实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页百度结果的第X条数据
可以自定义采集返回的是详尽URL,或者只采集返回域名
自动保存结果到当前目录的txt文件,文件名为搜索的 关键词.txt
为了便捷导出到其他工具,txt文件上面只记录了采集的网址。当然也可以自定义加入。如果须要同时记录标题,把代码中的注释删掉即可
自动消除重复记录
统计总采集条数(143 found),有效的条数(91 checked),被过滤的条数(52 filter),以及被过滤的重复的URL条数(9 delete)