宝典:瑞雪采集云爬虫采集入门到精通案例1
优采云 发布时间: 2022-10-01 23:50宝典:瑞雪采集云爬虫采集入门到精通案例1
前言:瑞雪采集云优先原则
前言:瑞雪采集Cloud是第一个支持java和python的企业级爬虫开发平台。
瑞雪采集云功能:
1、云平台编写和管理代码,有自己的代码管理机制。
2.私有部署,数据安全性高。
3.提供上万个代理IP。
4.强大的验证码API。
5.任务管理机制,准确了解进度。
6、爬虫的编写和运行都在云端进行,非常方便。
7、分布式爬虫效率高,通过增加爬虫机,任意减少爬虫机,大大降低成本。
8.爬虫AI自动学习,提高爬取效率。
9.专业技术客服,7*24*敏*感*词*支持。
对于企业和个人开发者,只需掌握瑞雪采集云方法论,即可上手瑞雪采集云平台。
瑞雪采集云方法论,是解决平台上所有爬虫问题的理论基础。
瑞雪的方法论原则:可以将复杂的爬虫问题拆解成小问题模块,然后每个小问题都可以解决。
以下五个特点是瑞雪的方法论,可以用来解决任何爬虫问题。
瑞雪采集云方法论:
【1】需求确认
[2] 抓取URL的确认
[3] 抓取html页面元素进行确认。
[4] 平台编码与测试
【5】平台发布
【1】需求确认:
百度动态输入公司名称,抓取百度搜索结果集首页的所有公司名称。
案例描述:
输入:瑞雪科技
抓取:红框中的标题
【2】网址确认
/
[3] HTML 页面元素确认 [4] 平台代码
package com.ruixuesoft.crawler.open.rule;
import com.ruixuesoft.crawler.open.RxCrawler;
import com.ruixuesoft.crawler.open.RxCrawlerException;
import com.ruixuesoft.crawler.open.RxDatabase;
import com.ruixuesoft.crawler.open.RxNode;
import com.ruixuesoft.crawler.open.RxResult;
import com.ruixuesoft.crawler.open.RxRule;
import com.ruixuesoft.crawler.open.RxTask;
public class Rule implements RxRule {
@Override
public RxResult execute ( RxTask task , RxCrawler crawler , RxDatabase database ) throws RxCrawlerException {
task.log ( "百度搜索结果抓取-开始" );
//打开要抓取的网站页面
crawler.open ( "https://www.baidu.com/" );
//得到参数v1输入框里的值
String searchKey = task.getV1();
//通过XPath的方式,选取搜索关键字框,输入查询关键字
crawler.input ( "//*[@id='kw']" , searchKey );
//有页面刷新,等待1秒
crawler.sleepSeconds ( 1 );
//通过XPath的方式,选取[百度一下]按钮,点击
RxNode searchNode = crawler.getNodeByXpath ( "//*[@id='su']" );
searchNode.click ();
<p>
//有页面刷新,等待1秒
crawler.sleepSeconds ( 1 );
//搜索结果一览的xpath
String baseXpath = "//*[@id='%s']/h3/a";
//输出第一页的10条搜索结果
for( int i = 1 ;i