直观:使用WebClient制作一下简单的采集器
优采云 发布时间: 2022-12-23 01:44直观:使用WebClient制作一下简单的采集器
使用WebClient做一个简单的采集器
输入url抓取网页内容,然后处理后存入数据库。 这应该就是采集器的原理了,如果要用C#来做,需要用到WebClient类
输入url抓取网页内容,然后处理后存入数据库。 这应该就是采集器的原理了,如果要用C#来做,需要用到WebClient类
我的博客不再使用。 今天在找外链的时候,突然发现这个博客的权重很高。
如需免费外链,请留言。 我要把这个博客变成一个免费的友情链接网站。
posted @ 2010-10-09 09:11 天气预报 (1824) 评论 (14) 编辑
解决方案:优采云采集的文件发布到服务器上,优采云采集器图片采集上传设置
教程总目录:
前面写了基本的标题和文章采集,下面介绍图片采集。
图片采集不是必须的,但是图片可以丰富网站的内容,不知道对网站的SEO会有什么影响。 我测试了一下,采集图和不采集图采集区别。 我见过的大部分收录站都不采集图片!
如果采集的数据量比较大,可以选择不采集图片。
文本开头
首先是有优采云采集器上的设置。
我们以这篇文章为例:
里面有一张图片,也是我们之前教程中用来演示的网站。
免责声明:我没有用过静安的产品(之前用过),对他的产品印象不好。 只是一个教程例子,不代表推荐他的产品。
我们直接打开上一个教程中创建的有优采云采集任务。
在资源采集规则-内容-文件下载
选择:完整的相对地址转绝对地址,下载图片
文件地址必须收录:uploads/allimg
这个必须收录是根据不同的网站设置的。 比如本教程文章图片地址为:
然后除了前面他网站的域名和后面会变的日期格式的文件名和目录名,其他的基本上就是我们想要的,所以这里我做的图片文件地址必须收录uploads/allimg。
你为什么这么做?
因为他可以在文章中添加图片广告,所以大部分图片广告都放在单独的目录下,方便修改。 这样方便以后做广告。 新旧文章可以一次修改。
文件保存目录:i\m\g/yyyyMMdd
这个目录就是你采集器本地电脑和服务器要创建的目录,先保存在本地再上传到服务器。
目录中的\斜杠是因为默认img中的m和g会被优采云识别为内置函数(字母颜色会变成绿色),没办法正常解析,所以加了斜杠。通常,它就像 img/yyyyMMdd
含义:意思是保存在网站的/img目录下,然后根据年月日自动创建对应的目录。
然后在 content-HTML 标签排除中,我们移除图像
然后我们设置图片的上传。 我们采集的顺序是先把图片下载到本地,再上传到服务器。
通过 FTP 上传。
首先在宝塔面板上传并创建一个FTP账号,FTP默认目录要设置在我们的网站和目录中。
采集器会根据我们上面的设置自行创建对应的目录。
注意:记得打开FTP使用的端口! 21, 20, 39000-40000 不开放端口,你的图片自然上传不了。 放开20和39000到40000端口是因为宝塔的FTP经常出现FTP连接错误,又是一个问题。 这里就不给大家解释了,不然篇幅太长了。
打开优采云采集器:其他设置、FTP文件上传、FTP上传
服务器:填写你的服务器IP地址
用户名/密码:刚才创建的FTP账号和密码
端口:默认21
文件上传根目录:/
顺序:先发布数据
文件上传成功后删除本地文件:是
您也可以在这里选择否。 如果选择是,可以减少采集器所在机器的磁盘占用,成功上传的图片不需要保留。
设置好后,我们点击上传测试文件:
查看下框显示的信息是否上传成功,打开网站目录查看是否上传了测试文件Test.zip。
如果测试没问题,保存设置,我们来测试看看采集效果
将此网址填入网址采集规则
因为我们测试的直接是一个内容页URL,所以重点关注以下URL采集规则:起始URL为内容页URL
保存,然后清空任务采集数据
运行任务
看到运行日志就没事了,我们去官网站看看有没有发布
文章发布正确,4张图片全部正常显示
本章教程到此结束!