教程:最详细优采云数据采集系统DedeCMS发布文章攻略
优采云 发布时间: 2022-10-25 19:28教程:最详细优采云数据采集系统DedeCMS发布文章攻略
搜索引擎不喜欢复制东西不喜欢数据采集,但是有时候会遇到一些情况,比如网站由于改版、数据库变更、管理程序等,需要传输网络数据采集 或网站 备份。提醒:
①进行任何操作前务必备份数据库并打包原站点;
②不建议对排名较好的网站的管理系统进行如此大的改动;
③ 不要为新站推荐采集others网站的信息,这样会降低新站给分的特殊权重。
前段时间,我做了一个旧的网站 修订计划。由于更换了管理系统和数据库,我决定采用原来的网站data采集的解决方案。网站改版需要新手掌握很多网站建设知识和SEO知识。我将与您分享这些经验。
网站基本情况
这个网站以前是有排名的,有很多收录和更好的优化。制作风格和吖啶很相似,代码简洁,前端氛围不错,标签的使用还可以,但是网站的优化方法有点黑帽子。后台使用的asp程序,数据库是access,要换成php,数据库是mysql。
网站修改软件工具
-EditPlus或DreamWear(代码编辑器);-APMServ(本地ASP、PHP环境);-Fiddler Web汉化版(web数据抓包);-火车头(LocoySpider)采集7.6(破解稳定版、数据采集);-DedeCMS V5.7(后台内容管理程序);-其他辅助工具。
网站借助优采云采集详细步骤1.搭建本地环境,安装Dedecms,安装Fiddler Web抓包工具,安装优采云 采集7.6等软件
安装方法很简单,涉及到文章织梦cms织梦cmscmscms织梦cms织梦>>。
提供部分软件下载链接: 密码:3n7e
2.优采云设置(重点内容)
官方的描述比较简单,新手采集网站资料一定要多读多练。打开 优采云采集 工具并创建一个新任务和组。
第 1 步:采集网址规则
①起始地址。即提取分页规则,按如下步骤: 点击添加-点击批量/多页-输入地址格式,例如我要采集的地址列表为:
http://www.123.com/case.asp?page=1&SmallClass=1http://www.123.com/case.asp?page=2&SmallClass=1http://www.123.com/case.asp?page=3&SmallClass=1
可以看出变量是1、2、3……通配符的写法是
http://www.123.com/case.asp?page=(*)&SmallClass=1
选择等差数列中的项数为你要采集的列表数,根据实际情况编写。点击添加
然后单击添加-完成-关闭。
②多级URL获取。即获取一个页面的 URL 地址列表。在任何目标列表中,右键单击 - 查看源代码。一般来说,有基础知识的同学不用多说,网上的资源还有很多自己真的不懂。找到特征代码片段,如下图所示写入,保存。
汇总:子域名搜集工具整理
目录
- 简介- Sublist3r2- Subfinder- Amass- OneforAll- Brute-Force- Summary- Tail
介绍
快九月了,看到很多SRC都有提交bug换月饼的活动,想月底再挖几天。之前虚拟机恢复了,所以一些采集子域名的工具都没了。在这里我在Github上又找到了几个star,都试试看,欢迎大家分享好的工具或方法。
子列表3r2
据介绍,该工具主要利用智能来采集子域名。使用此工具时,会报一些错误。有些人更新了 sublist3r2。这里我们将测试sublist3r2的效果。
sublist3r2 支持子域暴力破解,自带几十万的字典。我们在这里不测试蛮力。如果你做暴力破解,最后可以整合所有的字典,然后找一个高并发的工具来运行。
sublist3r2 测试:这个工具在采集期间对virustotal 很有用。它将让您输入密钥,登录后可以在主页上获取密钥。
一开始是安装在kali中的,运行中途会报异常,但不影响结果的输出。googleenum 是个例外,它是由于无法访问 Google 造成的。
测试过程中,如果不访问谷歌,域名数为103,这里用云服务器再试一次。找到的域名数量为276个,谷歌信息采集的结果偏差还是比较大的。
sublist3r2使用总结:建议添加virustotal的key,机器可以访问谷歌。在非暴力破解的情况下,使用d参数指定域名:
python sublist3r2.py -d xxx.com
在暴力破解的情况下,需要添加b参数。默认线程为 7000,可以通过 t 指定:
python sublist3r2.py -d xxx.com -b -t 5000
子查找器
subfinder是用go写的,所以跨平台支持很好,像windows一样,可以直接用exe文件,第一感觉用起来很舒服,工具的核心是被动采集域名,主要是通过一些网站为信息集合,所以每个网站的apikey都必须有。这种有键和无键是两种结果。
它从哪些平台采集信息,可以在github的readme中查看,或者使用ls参数查询,注册这些平台,登录获取key并添加到配置文件中(可以填写,一些注册有阈值)。
这里测试了同一个域名,找到了2154个。这个结果有点令人震惊。其实在之前的域名集合中,基本上是没有用来注册一些平台键的。在使用oneforall之前,还需要添加一个key,所以我懒得做。
可以看到这个结果。有很多多级域名和很多不常见的子域名。暴力违规总会有遗漏。这种多平台合集可以弥补暴力破解的不足。但也存在一些问题。比如这些域名是被动采集的,没有经过验证,是否可以访问是不确定的。
这里对subfinder的域名结果进行url生存检测(github搜索url生存找一些脚本),2154可以检测到600左右。
积累
首先,这个工具是由owasp维护的。与其他个人工具相比,维护更稳定,新技术会及时更新。引入是用来检测资产暴露的,比如公司域名、子域名、IP等,这里看一下子域集合。
它还有一个配置文件,可以配置key进去,这里不适合,使用最基本的enum模块来采集域名信息:
amass enum -d xxx.com
即便如此,它仍然采集了大量的信息源。同一个域名采集了342个,比较不错。如果结果是这样的话,感觉质量也很高,关键配置估计会更好。
为了更好的探索这个工具采集子域的能力,我决定配置key再试一次。首先,查看 amass enum 支持的数据源:
没有星号的指令是没有用的,需要配置。以下是带星号的:
上面的很多列表之前都在subfinder里,随便挑几个比较熟悉的加进去,比如hunter、ipinfo、whoisxmlapi等,像其他的Facebook、Twitter等,不需要。
配置的时候,把对应的选项去掉注释,加上key:
使用 config 参数指定配置文件:
amass enum -d xxx.com -config config.ini -o xxx.com.txt
结果是 1156。添加密钥和不添加密钥是两个工具。如果进行url检测,可以筛选掉450左右。
关于 amass 的其他用法,请参考 文章:
人人共享
对于同一个域名,默认配置oneforall,结果显示为524。其实默认的csv结果包括live和non-live,也就是所有结果,过滤csv的active字段,大概350,包括http和https。,只有域名180左右。在配置文件中,默认使用暴力破解,字典使用不到2000个子域,但也提供了一个大字典,先关闭:
我这里看了一下oneforall的api key配置。用法一般与 subfinder 和 amass 类似,但有几个不同之处。比如常用的fofa和站长之家都加了,像bing,但也有subfinder,而oneforall没有,所以这个东西,api key平台大致相同,只是个别平台的区别。
填上oneforall能填的key,再测试一下,结果是500左右。
如果这里的域名是一些比较大的公司,可能子域会多一点,而oneforall有一个默认开启的enable_finder_module模块,意思是从js文件和子域的响应体中重新找到子域,这很容易。这会导致子域过多和不准确的情况。如果匹配结果太多,会报错。问题中有人提出了这个问题:
有些人在测试超过 100,000 人后报告此错误。错误首先提示启动Finder模块,所以可以先关闭finder模块。需求不是很大。如果不关闭,则不会生成 csv 结果。
另一个问题是默认情况下某些 google 模块无法访问。它们可以在云服务器上运行,也可以为它设置代理,启用代理,并默认使用代理模块:
这里测试代理成功,本地v2rayn会有日志记录,但其实oneforall运行的时候,有些站点请求会红,会报超时,猜测超时原因,并没有具体超时设置的调整位置。它可以在云服务器上运行。
蛮力
无需采集和整理暴力字典。oneforall 自带的超大字典相当全面。通过字典,您可以使用支持蛮力的工具。对于一些问题,比如字典太大,加载的时候会卡住,或者多级域名坏了,导出结果太多,就会出现卡住的现象,然后就不会被使用。
突破多线程很重要,多线程go支持很好,但是和subfinder一样,主要是针对信息采集的,没有看到突破相关的用法。但是这块oneforall是提供的,默认线程是2000,最大推荐数不超过10000,相当不错,而且蛮力模块也是分离的,很方便。
使用方法参考:
总结
1.主要是信息采集和字典破解。信息采集主要依靠搜索引擎和平台,字典破解主要依靠字典。
2、sublist3r2涉及的平台比较少,所以没必要。
3. subfinder、amass、oneforall涉及的平台大同小异,但存在个体差异,使用时可以结合去重。
4. subfinder 的国外平台会更多,oneforall 的国内平台会更多。Amass作为一个整体也很好。作为资产曝光的集合,amass还提供了一些其他有用的功能。
5.如果要暴力破解,可以整理一下sublist3r2的字典和oneforall的字典,或者采集一些其他的词典添加进去,然后用oneforall的暴力破解。
6.上述结果也存在错误。一是验证存活的结果数量包括http和https,这两个都是估计值。另一个是该站点可能在 8080 或其他端口上。此外,平台键也不同,所以我不能说哪个更容易使用。哪个不行
尾巴
我在 31 日尝试了这些工具,并挖了一个 der。下个月,我会在中秋节看别人吃月饼。