宝典:瑞雪采集云爬虫采集入门到精通案例1

优采云发布时间: 2022-10-01 23:50

　　前言：瑞雪采集云优先原则

　　前言：瑞雪采集Cloud是第一个支持java和python的企业级爬虫开发平台。

　　瑞雪采集云功能：

　　1、云平台编写和管理代码，有自己的代码管理机制。

　　2.私有部署，数据安全性高。

　　3.提供上万个代理IP。

　　4.强大的验证码API。

　　5.任务管理机制，准确了解进度。

　　6、爬虫的编写和运行都在云端进行，非常方便。

　　7、分布式爬虫效率高，通过增加爬虫机，任意减少爬虫机，大大降低成本。

　　8.爬虫AI自动学习，提高爬取效率。

　　9.专业技术客服，7*24*敏*感*词*支持。

　　对于企业和个人开发者，只需掌握瑞雪采集云方法论，即可上手瑞雪采集云平台。

　　瑞雪采集云方法论，是解决平台上所有爬虫问题的理论基础。

　　瑞雪的方法论原则：可以将复杂的爬虫问题拆解成小问题模块，然后每个小问题都可以解决。

　　以下五个特点是瑞雪的方法论，可以用来解决任何爬虫问题。

　　瑞雪采集云方法论：

　　【1】需求确认

　　[2] 抓取URL的确认

　　[3] 抓取html页面元素进行确认。

　　[4] 平台编码与测试

　　【5】平台发布

　　【1】需求确认：

　　百度动态输入公司名称，抓取百度搜索结果集首页的所有公司名称。

　　案例描述：

　　输入：瑞雪科技

　　抓取：红框中的标题

　　【2】网址确认

　　/

　　[3] HTML 页面元素确认 [4] 平台代码

　　package com.ruixuesoft.crawler.open.rule;

import com.ruixuesoft.crawler.open.RxCrawler;

import com.ruixuesoft.crawler.open.RxCrawlerException;

import com.ruixuesoft.crawler.open.RxDatabase;

import com.ruixuesoft.crawler.open.RxNode;

import com.ruixuesoft.crawler.open.RxResult;

import com.ruixuesoft.crawler.open.RxRule;

import com.ruixuesoft.crawler.open.RxTask;

public class Rule implements RxRule {

@Override

public RxResult execute ( RxTask task , RxCrawler crawler , RxDatabase database ) throws RxCrawlerException {

task.log ( "百度搜索结果抓取-开始" );

//打开要抓取的网站页面

crawler.open ( "https://www.baidu.com/" );

//得到参数v1输入框里的值

String searchKey = task.getV1();

//通过XPath的方式，选取搜索关键字框，输入查询关键字

crawler.input ( "//*[@id='kw']" , searchKey );

//有页面刷新，等待1秒

crawler.sleepSeconds ( 1 );

//通过XPath的方式，选取[百度一下]按钮，点击

RxNode searchNode = crawler.getNodeByXpath ( "//*[@id='su']" );

searchNode.click ();

<p>

//有页面刷新，等待1秒

crawler.sleepSeconds ( 1 );

//搜索结果一览的xpath

String baseXpath = "//*[@id='%s']/h3/a";

//输出第一页的10条搜索结果

for( int i = 1 ;i

0

2022-10-01

云采集免费

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

宝典:瑞雪采集云爬虫采集入门到精通案例1

0 个评论

发起人

AI时代内容工厂

宝典:瑞雪采集云爬虫采集入门到精通案例1

0 个评论

发起人

相关问题