一键采集上传常见的细节问题(老虎每天会总结下一键采集上传常见的细节问题。)
优采云 发布时间: 2022-04-05 23:01一键采集上传常见的细节问题(老虎每天会总结下一键采集上传常见的细节问题。)
一键采集上传常见的细节问题,老虎每天会总结下常见的上传问题。这次上传的问题较多,但希望能帮助到大家。3.16-3.21这段时间一直在研究一键采集上传,一时间抓住了很多上传问题,更是发现了这个网站所存在的一些问题。比如这两个问题。1、上传参数乱码问题有没有朋友遇到这种情况,电脑联网(或插在网线),打开一个站点,上传参数被乱码了?其实抓取上传,是存在通用算法的,只是每个后缀不一样而已。
各类后缀比如#、.url、.robots.txt等等,都有对应的算法去解析,所以每个网站的算法不一样,也就导致了信息存在有有的时候是乱码,有的时候是正常的现象。找出不一样之处,先关闭该文件,查看默认文件名。然后重新打开文件,效果如下:blog是.robots.txt而百度网盘.crack.txt是正常的文件格式。
解决方法:1.百度网盘.crack.txt的模块也是存在在blog.php文件中的,重新查看默认文件名;2.通过编辑blog.php文件中上传参数到js里去处理,具体方法:windows平台,执行phpinfo()回车;linux平台,执行npminstall-gjsoup-g;打开网页,不关闭该文件,执行$url改为$request-url即可;通过抓包,可以发现有个toast设置的"$request-url",host设置的"$request-url"就是你访问的网站。
1.url乱码问题上面文章中已经给出解决方法了。这里还有一个问题:我们在站长平台设置的url。在网站的页面上显示并不正常,怎么办呢?看看抓包的结果就知道了。2.robots.txt可上传参数乱码其实前面解决方法中已经有答案了。robots.txt只是一个标记,而一些网站的抓取文件的内容是需要用robots.txt压缩之后传递给服务器,这个时候,url方面可能还是不成功,那么我们可以看看robots.txt文件的上传参数是不是出问题了。
以下是老虎抓包的结果,可能存在一些问题,但是重点是抓包结果上传参数存在问题了,因为我们抓取的内容比较多,放在一块儿给大家看下,所以老虎也给出了解决方法。(我们主要了解关于普通网站普通网站是www,类似于我们国内常见的“百度-我的网站”。.cn、.php、.mp等均可作为上传的参数。当然不管是百度、豆瓣、小红书还是我们国内知名的豆瓣小组这类平台,平台内部存在的网址是不会被压缩,所以就需要其他的压缩方法来解决。
但是在上传参数的头部会包含平台内的内容,所以在压缩的时候,能不能包含网址就看我们懂不懂得利用这个参数了)百度网盘.crack.txt然后我们通过调用方法curl-f,查看reques。