文章自动采集插件的介绍及介绍目录【通知】
优采云 发布时间: 2022-05-07 05:02文章自动采集插件的介绍及介绍目录【通知】
文章自动采集插件的介绍目录1.准备工作2.设置下载地址3.设置前端自动发布账号密码4.设置每个浏览器插件的自动登录限制5.获取各网站的云主机详细信息6.下载不同网站的云主机7.将云主机上传到服务器8.建立自动爬虫服务器9.配置自动爬虫服务器首先,准备工作:一般的用于获取附近网站信息的软件和api;一个域名;企业qq或网页注册邮箱(方便大家找到目标网站);服务器操作系统:ubuntu系统或者windows系统(建议windows系统,因为苹果系统暂时没有尝试过);个人电脑:台式机或者笔记本;路由器端口及其配置如下:10.设置下载地址:通过对方提供的网址找到目标页面,在网址中加入“tar”字符,或者直接添加到地址栏中。
举例:经过上述的设置后,点击“打开文件”->“查看”,看见如下界面:选择“tar”字符,选择下载的文件,选择“tar”文件,点击“下载”选择文件的后缀是rar文件下载(压缩文件),下载速度会比原来的文件快。点击“解压”,得到下图(解压后得到目标文件,可以根据自己的网站规划自己的目标页面):可以看见获取到了共计34个网页(目标页面是java接口,支持java,c#,php,.net语言):12.设置前端自动发布账号密码:选择“云主机自动发布”(一般看到c,w/a)选择“添加新机器”,因为是采用这种方式来接收网站发布的自动爬虫账号密码:点击“确定”,进入自动爬虫的详细信息设置页面(如下图):右侧信息中的内容为:选择“自动发布服务器”,添加其登录限制或者数据库密码,设置“详细信息”页面的详细信息(使用阿里云客户端的用户,右侧可以看到真正的个人主机ip)。
左侧的搜索关键词很重要,可以查到当前爬虫所在服务器的url(可以看见输入爬虫ip和密码后获取的java的tomcat服务器地址,以及代理ip地址):选择“自动发布服务器”,完成左侧登录授权设置(在登录设置中,账号和密码保存在电脑的其他文件中),设置好后再次检查ip的登录限制和密码登录限制,点击“发布”。
发布操作成功后,可以看见java的数据库ip的地址。6.获取不同网站的云主机详细信息:云主机:-bin/javaweb.security.public.path_inc=/to/data/c2d/这里的path_inc是指用java爬虫发布的数据库服务器的url,也就是说,点击“发布”后,这个数据库服务器的ip会在java爬虫发布的数据库ip中找到,按照url提示登录相关的目标服务器。除了上图示例目标网站的规则外,也可以根据特定需求来挑选目标网站,如博客、论。