网站内容抓取工具(文件名乱码遇到这个问题Ultra乱码怎么办?(图))
优采云 发布时间: 2021-10-23 18:04网站内容抓取工具(文件名乱码遇到这个问题Ultra乱码怎么办?(图))
由于某些原因,我们经常需要爬取某个网站或者直接复制某个站点。我们在网上找了很多工具进行测试,尝试了很多不同的问题,最后选择了Teleport Ultra,结果很有效。非常好; 具体的操作手册等东西这里就不说了,网上搜了很多,这里主要是遇到的问题:
软件下载地址:
工具截图:
测试爬取网站就是一个简单的心态:
抓取后的效果图
一般我会选择复制100级的,基本上把网站里面的东西都复制了,但是因为Teleport Ultra是用UTF-8抓的,如果文件中有汉字,或者gbk编码的文件就会出现乱码如下图:
当然,您可以在浏览器中手动选择 UTF-8,但我们不能每次打开时都这样做。于是去网站找了一个软件叫:TelePort Garbled Repair Tool(siteRepair-v2.0),经过测试,可以解决乱码问题,这个工具会还删除了一些无效的链接和html符号等。
软件下载地址:
软件截图:
大部分网站经过这两个步骤应该就OK了,但是有些网站层次结构使用中文目录或者中文文件名会出现乱码,类似于下面的URL地址:
除了加锁,还有什么办法可以解决资源竞争的问题?/解决方案.html
这样,网站的结构会被抓到两种乱码: 1)文件夹名乱码 2) 文件名乱码
遇到这个问题,siteRepair-v2.0 工具会报错,估计是无法识别乱码文件夹或文件。
后来在网上找到了一个PHP程序,简单的修改测试就可以解决这个问题。
PHP代码:convert.php
在代码的同级目录下新建convert文件夹,把乱码文件放到这个目录下,然后执行convert.php。