火车头采集器图片采集上传设置
优采云 发布时间: 2020-04-24 11:02前面我们写了基础的标题和文章采集,下面介绍下图片的采集。
图片采集不是必须的,但是图片可以丰富网站的内容,具体我也不清楚对网站的SEO有哪些影响。我测试采集图片和不采集图片收录没区别,我看到的一些采集站,大部分也是不采集图片的!
如果采集数据量比较大的话可以选择不采集图片。
正文开始
首先是火车头采集器上的设置。
我们以这个文章为例:
这个上面有一张图片,并且也是上面我们教程里用做示范的网站。
声明:本人目前没使用任何景安的产品(以前用过),也对他产品印象不好。仅做教程示例,没有推荐他产品的意思。
我们直接打开上面教程创建的那种火车头采集任务。
在内容采集规则-内容-文件下载上面
选择:将相对地址补全为绝对地址、下载图片
文件地址必须包含:uploads/allimg
这个必须包含是按照不同网站来设置的,比如本文教程里文章图片地址是:
那么除掉后面他网站域名和前面会形成变化的文件名和日期格式的目录名之外剩余的基本就是我们想要的内容,所以我这儿使图片文件地址必须包含uploads/allimg。
为什么如此做?
因为他有可能在文章里加入图片广告,图片广告为了易于更改,大部分都是采用单独目录内放图片广告的形式。这样之后该广告比较容易。新老文章都能一次更改掉。
文件保存目录:i\m\g/yyyyMMdd
这个目录是你采集器的本地笔记本和服务器上面要创建的目录火车头采集教程火车头采集教程,先存到本地之后上传到服务器里。
目录上面的\斜杠是因为默认img上面m和g会被火车头辨识为内置函数(字母颜色会变蓝),没办法正常解析,所以加上斜杠。正常的话是img/yyyyMMdd这样的
含义:表示保存到网站的/img目录下,然后按照年月日手动创建对应的目录。
然后是在内容的-HTML标签排除上面,我们除去图象<img这个标签的排除。因为排除后我们发布后文章内就没有调用图片,自然不会显示图片内容。
然后我们进行图片的上传设置,我们采集时候次序是,先将图片下载到本地,然后传到服务器这样一个步骤。
通过FTP的方法来上传。
先在宝塔面板上传建一个FTP帐户,FTP默认目录要设置在我们网站跟目录。
采集器会依照我们里面的设置自己创建对应的目录。
注意:FTP使用的端口记得打开!21、20、39000-40000不打开端口你图片自然传不了。放行20和39000到40000这种端口是因为宝塔的FTP时常出现FTP联接错误的情况,这是另一个问题。这里不给你们解释了,不然篇幅很长了。
打开火车头采集器:其他设置、FTP文件上传、FTP上传
服务器:填写你的服务器IP地址
用户名/密码:刚才创建的FTP帐户和密码
端口:默认21
文件上传根目录:/
次序:先发布数据
文件上传成功后删掉本地文件:是
这里也可以选择否,选择是的话可以降低采集器所在机器c盘的占用,而且上传成功的图片,也没必要在保留了。
设置好了以后我们点一下上传测试文件:
看下下边的框里显示的信息,有没有成功上传,并且打开网站目录内也看下有没有测试文件Test.zip被上传。
测试OK的话保存一下设置,我们测试下瞧瞧采集效果