文章采集系统(文章采集系统redisredis服务器的redis服务下的请求源头)
优采云 发布时间: 2022-03-12 01:04文章采集系统(文章采集系统redisredis服务器的redis服务下的请求源头)
文章采集系统redisredis是systemoperatingsystem的中的一个,是以位元(byte)为存储单元,提供短暂存储功能的内存型缓存服务器。redis主要使用java语言实现,具有高性能,高可用,低成本,本地部署等特点。所以它也适合人们使用,尤其是对于初学者。在中国,redis用户很多,我们需要做的事情是,把爬虫服务器的redis服务下,封装好我们爬虫的请求源头。
这就是redis做的事情,也是我们开发客户端的意义和价值所在。爬虫请求一般都是来自于自己的爬虫服务器,或者公共平台。大部分的爬虫服务器,封装的方式为,结合本平台的getshell工具来实现。目前主流的方式是,通过配置进来的ip和端口号,直接访问我们的java客户端,你看看,只用了三行代码,搞定了。方案概要:配置ip和端口。
给redis配置爬虫服务器,我使用了index.html这个页面。爬虫放在一个指定的html文件里。需要index.html这个页面里的md5对应于爬虫服务器的ip地址,就能直接访问了。配置index.html。给爬虫请求一个响应包,比如index.txt。最简单的实现是采用get方式发送请求包,但是需要给客户端发送一个redis请求,所以就用回调。
因为一般http服务器客户端不同,如果客户端有这个请求的话,必须给爬虫服务器发送回调。java核心库本身实现了很多爬虫库,包括redis,还有scrapy等。这里我通过我自己实现的方式,解决了以上问题。采用windows环境,集成了c#的和ssh的两种方式,前者都需要服务器配置环境变量,后者直接使用命令行命令就能完成,因为c#和ssh的库实现都是通过命令行来实现的。
这里简单说一下服务器环境搭建:centos环境centos6.5+redis5.4+msys4.1.0nxftpd2.6+msys2.3.1319102018.11.1下载:下载-服务器版本下载-上图是服务器链接redis,msys4.1.0会跳转到redis版本页面。我采用msys4.1.0,下载链接(下载的是二进制包):-wget-2.2.2.tar.gzwget-3.6.3.tar.gznoarchcentos-6.5.30-redis-1.1.1419102019.11.1.el7_1243.el7_3.x86_64.deb内核centos7redis2.2.2配置redis5.3.xbtar-xzfredis-5.3.3.tar.gzredis-5.3.xb通过ietf指定输入标识符:ietf-slimit_slot,类型limit_levelname=redis-illumina/3redis-illumina/3可以正常写入,但是不能设置过大的传输量。不仅如此,