PythonURL采集工具 V2.1

优采云发布时间: 2020-08-10 19:22

　　软件说明

　　根据关键词，对搜索引擎内容检索结果的网址内容进行采集的一款轻量级软程序(支持英文)。

　　程序主要运用于安全渗透测试项目，以及批量评估各种CMS系统0DAY的影响程度，同时也是批量采集自己获取感兴趣的网站的一个小程序~~

　　可手动从搜索引擎采集相关网站的真实地址与标题等信息，可保存为文件，自动消除重复URL。同时，也可以自定义忽视多条域名。

　　更新说明

　　2.0新版，对程序进行了重画升级，模块化开发，方便后期的扩充；

　　2.0新版，内置的搜索引擎降低。包括百度，搜狗，360搜索（新降低支持的搜索引擎比较容易）；

　　2.0新版，增加了配置文件，无需修改代码即可自定义。方便菜鸟使用；

　　使用疗效

　　测试环境为Mac Pro 10.12

　　测试环境系统为Mac Pro 10.12

　　测试环境python版本为2.7

　　如果提示模块不存在，则按照提示进行安装！

　　一般没有安装tld模块，使用 pip install tld 进行安装。或者官网下载()

　　使用说明

　　为了避免采集过快引起封IP之类的事情，程序早已设置了延后时间。建议不要追求速率，免得换IP。

　　2.0版本的文件为superl-url.py，如果须要使用老版本的，则运行search-url-old.py

　　测试环境为Python2.7.x，如果须要python3版本的，可以自行更改。

　　如果要采集关键词为“hacker”的相关网站，采集搜索结果的前3页，则输入如下：

　　please input keyword:hacker

　　Search Number of pages:3

　　配置文件说明

　　[global]

　　savefile = True ;是否保存文件

　　sleeptime = 30 ;延迟30秒

　　[filter]

　　filter_urlparam = True ;是否清除URL参数

　　filter_url = True ;是否过滤网址

　　filter_title = True ;是否过滤标题

　　[log]

　　write_title = True ;是否把标题也写入日志文件

　　write_name = True ;是否把搜索引擎名称也写入日志文件

　　[search]

　　baidu_search = True ;是否开启百度搜索

　　sougou_search = True ;是否开启搜狗搜索

　　so_search = True ;是否开启360搜索

　　baidu_page_size = 50 ;百度结果每页显示50条

　　sougou_page_size = 50 ;搜狗结果每页显示50条

　　程序特征

　　支持同时采集多个搜索引擎(已外置了百度，搜狗，360),结构模块化，很方便进行扩充，可以无限添加。

　　获取到的是搜索引擎的搜索结果的真实URL地址

　　可以忽视不需要的常见网站，如忽视百度翻译，等等所有百度相关结果，给链表添加即可。程序早已默认忽视了好多条，也支持按照自己的需求进行自定义。如filter_array1 = ['','','','','','','','','']

　　filter_array2 = ['','','']

　　filter_array3 = ['','','','','','','','','']

　　filter_array4 = ['','','','']

　　filter_array5 = ['','','','']

　　实时显示采集到的网页的【真实URL】以及【标题】。前面的【ID】对应的是当前页百度结果的第X条数据

　　可以自定义采集返回的是详尽URL，或者只采集返回域名

　　自动保存结果到当前目录的txt文件，文件名为搜索的关键词.txt

　　为了便捷导出到其他工具，txt文件上面只记录了采集的网址。当然也可以自定义加入。如果须要同时记录标题，把代码中的注释删掉即可

　　自动消除重复记录

　　统计总采集条数（143 found），有效的条数（91 checked），被过滤的条数（52 filter），以及被过滤的重复的URL条数（9 delete）

0

2020-08-10

关键词文章采集工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

PythonURL采集工具 V2.1

0 个评论

发起人

AI时代内容工厂

PythonURL采集工具 V2.1

0 个评论

发起人

相关问题