刚写一个Python的URL采集程序，可以采集最新的百度

优采云发布时间: 2021-05-07 02:15

　　我刚刚编写了一个Python URL 采集程序，可以采集最新的百度。立即为大兄弟们贡献力量！

　　已经在GITHUB中开源，项目地址：

　　如果您有一个帐户，请单击星号以使其喜欢

　　软件简介：

　　根据关键词，网站的真实地址和标题自动与搜索引擎采集相关，并且可以自动保存为文件以自动删除重复的URL。同时，您可以自定义忽略多个域名。最新的百度采集通过了，测试时间为2017-08-03

　　运行屏幕截图：

　　使用说明

　　该程序主要用于安全渗透测试项目，以及分批评估各种cms系统0DAY漏洞的影响，它也是一个小程序，用于批处理采集以获取感兴趣的网站自己一个~~

　　测试环境为Python 2. 7. x如果需要python3版本，则可以自己修改它，或在我的博客上留言

　　当前，只有采集个百度搜索引擎结果可用。默认情况下，每个页面显示50条记录。您可以将页数自定义为采集。

　　如果您希望采集关键词与“黑客” 网站，采集百度搜索结果的前三页相关，请输入以下内容：

　　请输入关键字：hacker

　　搜索页数：3

　　程序功能

　　1：所获得的是百度搜索结果的真实URL地址

　　2：您可以忽略不需要的常用网站，例如忽略百度翻译等所有与百度相关的结果，只需将其添加到数组中即可。该程序默认情况下忽略了许多项目，例如

　　filter_array1 = [''，''，''，''，''，''，''，''，'']

　　filter_array2 = [''，''，'']

　　filter_array3 = [''，''，''，''，''，''，''，''，'']

　　filter_array4 = [''，''，''，'']

　　filter_array5 = [''，''，''，'']

　　3：实时显示采集到达的网页的[真实URL]和[标题]。前一个[ID]对应当前页面上百度结果的X数据

　　4：自动将结果保存到当前目录中的txt文件中，搜索文件名关键词 .txt为了便于导入其他工具，该文件中仅记录了采集的URL 。如果需要同时记录标题，请删除代码中的注释。

　　5：自动删除重复的记录

　　6：计算采集个项目的总数（找到143个），有效项目的数量（已选中91个），已过滤项目的数量（52个过滤器）和已过滤重复URL的数量（9个删除）

　　7：开源，任何人都可以下载和使用。由于我的能力有限，如果我有好的建议和修正，我希望可以一起加以改进

　　8：跨平台，没有捆绑后门的风险。互联网上的大多数百度URL 采集软件以前都是WINDOWS下的可执行文件，现在在更新百度采集之后，它不再是正常的。

　　9：程序将不断更新

　　关于更新

　　由于时间限制，没有进行优化。许多自定义参数也使用默认值，下一个版本将添加自定义参数

　　此后，必应会依次添加Bing搜索引擎和goole引擎的采集功能，并将其与百度的功能合并。如果需求增加，还可以增加多线程或多进程扫描

　　如果由于百度更新而缺少采集的内容，则可以在我的博客上留言以与我联系以进行修改

　　如果转载，请注明出处！ “ [search-url] 网站 URL自动采集软件版本”的原创地址：

0

2021-05-07

网站自动采集发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

刚写一个Python的URL采集程序，可以采集最新的百度

0 个评论

发起人

AI时代内容工厂

刚写一个Python的URL采集程序，可以采集最新的百度

0 个评论

发起人

相关问题