php抓取网页所有图片(Web-CTF基础解题必备的知识,注意看隐藏的JavaScript文件)
优采云 发布时间: 2022-03-26 06:08php抓取网页所有图片(Web-CTF基础解题必备的知识,注意看隐藏的JavaScript文件)
Web-CTF基础解题必备知识1.火狐浏览器F12查看源码
,注意隐藏的JavaScript文件,以及html、base等的编码,必要时解码,检查网络状态判断服务器和网页的状态
2.机器人协议
Robots Protocol(也称为Crawler Protocol、Robot Protocol等)的全称是“Robots Exclusion Protocol”,网站Robots Protocol告诉搜索引擎哪些页面可以爬取,哪些页面可以爬取无法爬行。
关于创建 robots.txt 文件的注意事项:
必须是以txt结尾的纯文本文件;文件名中的所有字母必须小写;文件必须放在网站根目录;放在网站根目录
robots.txt 文件写入:
User-agent: * 这里代表所有搜索引擎类型,是通配符
Disallow: /admin/ 这里的定义是禁止爬取admin目录下的目录
Disallow: /require/ 这里的定义是禁止爬取require目录下的目录
Disallow: /ABC/ 这里的定义是禁止爬取ABC目录下的目录
禁止:/cgi-bin/.htm 禁止访问 /cgi-bin/ 目录中所有以“.htm”为后缀的 URL(包括子目录)。
Disallow: /?* 禁止访问 网站 中收录问号 (?) 的所有 URL
Disallow: /.jpg$ 禁止网页中的所有 .jpg 图片
Disallow:/ab/adc.html 禁止爬取ab文件夹下的adc.html文件。
允许:/cgi-bin/这里的定义是允许cgi-bin目录下的目录被爬取
允许:这里定义/tmp允许爬取tmp的整个目录
允许:.htm$ 只允许访问以“.htm”为后缀的 URL。
允许:.gif$ 允许抓取网页和 gif 文件
Sitemap:网站map 告诉爬虫这个页面是一个网站map
简单地说:allow后面是允许的页面,disallow后面是不允许的页面。
在访问一个网站之前,访问者需要遵守这个协议,哪些文件可以查看,哪些可以爬取,哪些不可以,然后进行下一步。
3.备份
可以备份网络文件。如果文件被删除,可以在url后面输入备份
输入 /xxx.php.bak 下载此备份文件。
4.饼干
什么是 cookie?
事实上,cookies 是由网络服务器存储在您计算机硬盘上的 txt 类型的小文件。它与您的互联网浏览行为有关,因此存储在您计算机上的 cookie 就像您的*敏*感*词*一样。您计算机上的 Cookie 与其他计算机上的 Cookie 不同; cookie 不能被视为代码执行,也不会成为病毒,因此它们对您几乎无害。
什么是cookie?它有什么作用?
cookies的主要功能是当您访问某些网页并修改网页的某些设置时,cookies可以跟踪和记录这些更改。当您下次访问此网页时,此网页会分析您计算机上的 cookie,进而采取措施,例如将您返回到对您而言更个性化的页面;
当然,目前大部分的广告定位也是基于cookies的。例如,如果您之前访问过很多健身课程网站,cookie 会记录您的访问行为,广告商可以根据您的访问行为,向您发送与健身相关的广告。
打开F12源码,可以查看网络上的cookie,cookie的本质是一个文件,所以可以在url栏中访问cookie文件获取身份信息(或者获取身份信息在源代码)
5.修改网页前端
前端,也称为web前端,是在PC和移动浏览器上运行并展示给用户的网页
最基础的(HTML、CSS、JavaScript)和前端页面开发的核心,对于网站来说,通常是指网站的前端部分,包括表现层网站 和 Structural 层(通俗点是用户能看到的部分)。
综上所述,浏览器、APP、应用的界面呈现和用户交互都是前端。
可以使用bp抓包修改代码
用户可以修改前端代码来改变网站的前端功能。
所以你必须学习一些前端函数和函数代码。
6.编码和转码
在这里插入34;,79&#x:html编码
NTUsNTYsNTQsNzksMTE1L:base64编码
%35%35%2c%35%36%2c%35%34%2c%37%39:URL编码
x/35x/35x/x/35x/36x/2cx/35x/34: javascript编码代码片
将十进制数字或符号转换为这些编码。
另外还可以转换成ASCII编码,对应表如下**:**
7.PHP前端代码8.对于各种网络数据传输,HTTP协议及其web数据操作原理,get,post传输参数...
例如:curl -d b=2 就是使用cmd命令行传递参数,显示服务器端响应。