刚写一个Python的URL采集程序,可以采集最新的百度

优采云 发布时间: 2021-05-07 02:15

  刚写一个Python的URL采集程序,可以采集最新的百度

  我刚刚编写了一个Python URL 采集程序,可以采集最新的百度。立即为大兄弟们贡献力量!

  已经在GITHUB中开源,项目地址:

  如果您有一个帐户,请单击星号以使其喜欢

  软件简介:

  根据关键词,网站的真实地址和标题自动与搜索引擎采集相关,并且可以自动保存为文件以自动删除重复的URL。同时,您可以自定义忽略多个域名。最新的百度采集通过了,测试时间为2017-08-03

  运行屏幕截图:

  

  

  使用说明

  该程序主要用于安全渗透测试项目,以及分批评估各种cms系统0DAY漏洞的影响,它也是一个小程序,用于批处理采集以获取感兴趣的网站自己一个~~

  测试环境为Python 2. 7. x如果需要python3版本,则可以自己修改它,或在我的博客上留言

  当前,只有采集个百度搜索引擎结果可用。默认情况下,每个页面显示50条记录。您可以将页数自定义为采集。

  如果您希望采集 关键词与“黑客” 网站,采集百度搜索结果的前三页相关,请输入以下内容:

  请输入关键字:hacker

  搜索页数:3

  程序功能

  1:所获得的是百度搜索结果的真实URL地址

  2:您可以忽略不需要的常用网站,例如忽略百度翻译等所有与百度相关的结果,只需将其添加到数组中即可。该程序默认情况下忽略了许多项目,例如

  filter_array1 = ['','','','','','','','','']

  filter_array2 = ['','','']

  filter_array3 = ['','','','','','','','','']

  filter_array4 = ['','','','']

  filter_array5 = ['','','','']

  3:实时显示采集到达的网页的[真实URL]和[标题]。前一个[ID]对应当前页面上百度结果的X数据

  4:自动将结果保存到当前目录中的txt文件中,搜索文件名关键词 .txt为了便于导入其他工具,该文件中仅记录了采集的URL 。如果需要同时记录标题,请删除代码中的注释。

  5:自动删除重复的记录

  6:计算采集个项目的总数(找到143个),有效项目的数量(已选中91个),已过滤项目的数量(52个过滤器)和已过滤重复URL的数量(9个删除)

  7:开源,任何人都可以下载和使用。由于我的能力有限,如果我有好的建议和修正,我希望可以一​​起加以改进

  8:跨平台,没有捆绑后门的风险。互联网上的大多数百度URL 采集软件以前都是WINDOWS下的可执行文件,现在在更新百度采集之后,它不再是正常的。

  9:程序将不断更新

  关于更新

  由于时间限制,没有进行优化。许多自定义参数也使用默认值,下一个版本将添加自定义参数

  此后,必应会依次添加Bing搜索引擎和goole引擎的采集功能,并将其与百度的功能合并。如果需求增加,还可以增加多线程或多进程扫描

  如果由于百度更新而缺少采集的内容,则可以在我的博客上留言以与我联系以进行修改

  如果转载,请注明出处! “ [search-url] 网站 URL自动采集软件版本”的原创地址:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线