网站内容抓取工具(文件名乱码遇到这个问题Ultra乱码怎么办?(图))

优采云 发布时间: 2021-10-23 18:04

  网站内容抓取工具(文件名乱码遇到这个问题Ultra乱码怎么办?(图))

  由于某些原因,我们经常需要爬取某个网站或者直接复制某个站点。我们在网上找了很多工具进行测试,尝试了很多不同的问题,最后选择了Teleport Ultra,结果很有效。非常好; 具体的操作手册等东西这里就不说了,网上搜了很多,这里主要是遇到的问题:

  软件下载地址:

  工具截图:

  

  测试爬取网站就是一个简单的心态:

  抓取后的效果图

  

  一般我会选择复制100级的,基本上把网站里面的东西都复制了,但是因为Teleport Ultra是用UTF-8抓的,如果文件中有汉字,或者gbk编码的文件就会出现乱码如下图:

  

  当然,您可以在浏览器中手动选择 UTF-8,但我们不能每次打开时都这样做。于是去网站找了一个软件叫:TelePort Garbled Repair Tool(siteRepair-v2.0),经过测试,可以解决乱码问题,这个工具会还删除了一些无效的链接和html符号等。

  软件下载地址:

  软件截图:

  

  大部分网站经过这两个步骤应该就OK了,但是有些网站层次结构使用中文目录或者中文文件名会出现乱码,类似于下面的URL地址:

  除了加锁,还有什么办法可以解决资源竞争的问题?/解决方案.html

  这样,网站的结构会被抓到两种乱码: 1)文件夹名乱码 2) 文件名乱码

  遇到这个问题,siteRepair-v2.0 工具会报错,估计是无法识别乱码文件夹或文件。

  后来在网上找到了一个PHP程序,简单的修改测试就可以解决这个问题。

  PHP代码:convert.php

  在代码的同级目录下新建convert文件夹,把乱码文件放到这个目录下,然后执行convert.php。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线