教程:最详细优采云数据采集系统DedeCMS发布文章攻略

优采云 发布时间: 2022-10-25 19:28

  教程:最详细优采云数据采集系统DedeCMS发布文章攻略

  搜索引擎不喜欢复制东西不喜欢数据采集,但是有时候会遇到一些情况,比如网站由于改版、数据库变更、管理程序等,需要传输网络数据采集 或网站 备份。提醒:

  ①进行任何操作前务必备份数据库并打包原站点;

  ②不建议对排名较好的网站的管理系统进行如此大的改动;

  ③ 不要为新站推荐采集others网站的信息,这样会降低新站给分的特殊权重。

  前段时间,我做了一个旧的网站 修订计划。由于更换了管理系统和数据库,我决定采用原来的网站data采集的解决方案。网站改版需要新手掌握很多网站建设知识和SEO知识。我将与您分享这些经验。

  网站基本情况

  这个网站以前是有排名的,有很多收录和更好的优化。制作风格和吖啶很相似,代码简洁,前端氛围不错,标签的使用还可以,但是网站的优化方法有点黑帽子。后台使用的asp程序,数据库是access,要换成php,数据库是mysql。

  

  网站修改软件工具

  -EditPlus或DreamWear(代码编辑器);-APMServ(本地ASP、PHP环境);-Fiddler Web汉化版(web数据抓包);-火车头(LocoySpider)采集7.6(破解稳定版、数据采集);-DedeCMS V5.7(后台内容管理程序);-其他辅助工具。

  网站借助优采云采集详细步骤1.搭建本地环境,安装Dedecms,安装Fiddler Web抓包工具,安装优采云 采集7.6等软件

  安装方法很简单,涉及到文章织梦cms织梦cmscmscms织梦cms织梦>>。

  提供部分软件下载链接: 密码:3n7e

  2.优采云设置(重点内容)

  官方的描述比较简单,新手采集网站资料一定要多读多练。打开 优采云采集 工具并创建一个新任务和组。

  第 1 步:采集网址规则

  

  ①起始地址。即提取分页规则,按如下步骤: 点击添加-点击批量/多页-输入地址格式,例如我要采集的地址列表为:

  http://www.123.com/case.asp?page=1&SmallClass=1http://www.123.com/case.asp?page=2&SmallClass=1http://www.123.com/case.asp?page=3&SmallClass=1

  可以看出变量是1、2、3……通配符的写法是

  http://www.123.com/case.asp?page=(*)&SmallClass=1

  选择等差数列中的项数为你要采集的列表数,根据实际情况编写。点击添加

  然后单击添加-完成-关闭。

  ②多级URL获取。即获取一个页面的 URL 地址列表。在任何目标列表中,右键单击 - 查看源代码。一般来说,有基础知识的同学不用多说,网上的资源还有很多自己真的不懂。找到特征代码片段,如下图所示写入,保存。

  汇总:子域名搜集工具整理

  目录

  - 简介- Sublist3r2- Subfinder- Amass- OneforAll- Brute-Force- Summary- Tail

  介绍

  快九月了,看到很多SRC都有提交bug换月饼的活动,想月底再挖几天。之前虚拟机恢复了,所以一些采集子域名的工具都没了。在这里我在Github上又找到了几个star,都试试看,欢迎大家分享好的工具或方法。

  子列表3r2

  据介绍,该工具主要利用智能来采集子域名。使用此工具时,会报一些错误。有些人更新了 sublist3r2。这里我们将测试sublist3r2的效果。

  sublist3r2 支持子域暴力破解,自带几十万的字典。我们在这里不测试蛮力。如果你做暴力破解,最后可以整合所有的字典,然后找一个高并发的工具来运行。

  sublist3r2 测试:这个工具在采集期间对virustotal 很有用。它将让您输入密钥,登录后可以在主页上获取密钥。

  一开始是安装在kali中的,运行中途会报异常,但不影响结果的输出。googleenum 是个例外,它是由于无法访问 Google 造成的。

  测试过程中,如果不访问谷歌,域名数为103,这里用云服务器再试一次。找到的域名数量为276个,谷歌信息采集的结果偏差还是比较大的。

  sublist3r2使用总结:建议添加virustotal的key,机器可以访问谷歌。在非暴力破解的情况下,使用d参数指定域名:

  python sublist3r2.py -d xxx.com

  在暴力破解的情况下,需要添加b参数。默认线程为 7000,可以通过 t 指定:

  python sublist3r2.py -d xxx.com -b -t 5000

  子查找器

  subfinder是用go写的,所以跨平台支持很好,像windows一样,可以直接用exe文件,第一感觉用起来很舒服,工具的核心是被动采集域名,主要是通过一些网站为信息集合,所以每个网站的apikey都必须有。这种有键和无键是两种结果。

  它从哪些平台采集信息,可以在github的readme中查看,或者使用ls参数查询,注册这些平台,登录获取key并添加到配置文件中(可以填写,一些注册有阈值)。

  

  这里测试了同一个域名,找到了2154个。这个结果有点令人震惊。其实在之前的域名集合中,基本上是没有用来注册一些平台键的。在使用oneforall之前,还需要添加一个key,所以我懒得做。

  可以看到这个结果。有很多多级域名和很多不常见的子域名。暴力违规总会有遗漏。这种多平台合集可以弥补暴力破解的不足。但也存在一些问题。比如这些域名是被动采集的,没有经过验证,是否可以访问是不确定的。

  这里对subfinder的域名结果进行url生存检测(github搜索url生存找一些脚本),2154可以检测到600左右。

  积累

  首先,这个工具是由owasp维护的。与其他个人工具相比,维护更稳定,新技术会及时更新。引入是用来检测资产暴露的,比如公司域名、子域名、IP等,这里看一下子域集合。

  它还有一个配置文件,可以配置key进去,这里不适合,使用最基本的enum模块来采集域名信息:

  amass enum -d xxx.com

  即便如此,它仍然采集了大量的信息源。同一个域名采集了342个,比较不错。如果结果是这样的话,感觉质量也很高,关键配置估计会更好。

  为了更好的探索这个工具采集子域的能力,我决定配置key再试一次。首先,查看 amass enum 支持的数据源:

  没有星号的指令是没有用的,需要配置。以下是带星号的:

  上面的很多列表之前都在subfinder里,随便挑几个比较熟悉的加进去,比如hunter、ipinfo、whoisxmlapi等,像其他的Facebook、Twitter等,不需要。

  配置的时候,把对应的选项去掉注释,加上key:

  使用 config 参数指定配置文件:

  amass enum -d xxx.com -config config.ini -o xxx.com.txt

  结果是 1156。添加密钥和不添加密钥是两个工具。如果进行url检测,可以筛选掉450左右。

  关于 amass 的其他用法,请参考 文章:

  人人共享

  对于同一个域名,默认配置oneforall,结果显示为524。其实默认的csv结果包括live和non-live,也就是所有结果,过滤csv的active字段,大概350,包括http和https。,只有域名180左右。在配置文件中,默认使用暴力破解,字典使用不到2000个子域,但也提供了一个大字典,先关闭:

  

  我这里看了一下oneforall的api key配置。用法一般与 subfinder 和 amass 类似,但有几个不同之处。比如常用的fofa和站长之家都加了,像bing,但也有subfinder,而oneforall没有,所以这个东西,api key平台大致相同,只是个别平台的区别。

  填上oneforall能填的key,再测试一下,结果是500左右。

  如果这里的域名是一些比较大的公司,可能子域会多一点,而oneforall有一个默认开启的enable_finder_module模块,意思是从js文件和子域的响应体中重新找到子域,这很容易。这会导致子域过多和不准确的情况。如果匹配结果太多,会报错。问题中有人提出了这个问题:

  有些人在测试超过 100,000 人后报告此错误。错误首先提示启动Finder模块,所以可以先关闭finder模块。需求不是很大。如果不关闭,则不会生成 csv 结果。

  另一个问题是默认情况下某些 google 模块无法访问。它们可以在云服务器上运行,也可以为它设置代理,启用代理,并默认使用代理模块:

  这里测试代理成功,本地v2rayn会有日志记录,但其实oneforall运行的时候,有些站点请求会红,会报超时,猜测超时原因,并没有具体超时设置的调整位置。它可以在云服务器上运行。

  蛮力

  无需采集和整理暴力字典。oneforall 自带的超大字典相当全面。通过字典,您可以使用支持蛮力的工具。对于一些问题,比如字典太大,加载的时候会卡住,或者多级域名坏了,导出结果太多,就会出现卡住的现象,然后就不会被使用。

  突破多线程很重要,多线程go支持很好,但是和subfinder一样,主要是针对信息采集的,没有看到突破相关的用法。但是这块oneforall是提供的,默认线程是2000,最大推荐数不超过10000,相当不错,而且蛮力模块也是分离的,很方便。

  使用方法参考:

  总结

  1.主要是信息采集和字典破解。信息采集主要依靠搜索引擎和平台,字典破解主要依靠字典。

  2、sublist3r2涉及的平台比较少,所以没必要。

  3. subfinder、amass、oneforall涉及的平台大同小异,但存在个体差异,使用时可以结合去重。

  4. subfinder 的国外平台会更多,oneforall 的国内平台会更多。Amass作为一个整体也很好。作为资产曝光的集合,amass还提供了一些其他有用的功能。

  5.如果要暴力破解,可以整理一下sublist3r2的字典和oneforall的字典,或者采集一些其他的词典添加进去,然后用oneforall的暴力破解。

  6.上述结果也存在错误。一是验证存活的结果数量包括http和https,这两个都是估计值。另一个是该站点可能在 8080 或其他端口上。此外,平台键也不同,所以我不能说哪个更容易使用。哪个不行

  尾巴

  我在 31 日尝试了这些工具,并挖了一个 der。下个月,我会在中秋节看别人吃月饼。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线