宝典:瑞雪采集云爬虫采集入门到精通案例1

优采云 发布时间: 2022-10-01 23:50

  宝典:瑞雪采集云爬虫采集入门到精通案例1

  前言:瑞雪采集云优先原则

  前言:瑞雪采集Cloud是第一个支持java和python的企业级爬虫开发平台。

  瑞雪采集云功能:

  1、云平台编写和管理代码,有自己的代码管理机制。

  2.私有部署,数据安全性高。

  3.提供上万个代理IP。

  4.强大的验证码API。

  5.任务管理机制,准确了解进度。

  6、爬虫的编写和运行都在云端进行,非常方便。

  7、分布式爬虫效率高,通过增加爬虫机,任意减少爬虫机,大大降低成本。

  8.爬虫AI自动学习,提高爬取效率。

  9.专业技术客服,7*24*敏*感*词*支持。

  对于企业和个人开发者,只需掌握瑞雪采集云方法论,即可上手瑞雪采集云平台。

  瑞雪采集云方法论,是解决平台上所有爬虫问题的理论基础。

  瑞雪的方法论原则:可以将复杂的爬虫问题拆解成小问题模块,然后每个小问题都可以解决。

  以下五个特点是瑞雪的方法论,可以用来解决任何爬虫问题。

  瑞雪采集云方法论:

  【1】需求确认

  [2] 抓取URL的确认

  [3] 抓取html页面元素进行确认。

  [4] 平台编码与测试

  【5】平台发布

  【1】需求确认:

  百度动态输入公司名称,抓取百度搜索结果集首页的所有公司名称。

  案例描述:

  输入:瑞雪科技

  抓取:红框中的标题

  【2】网址确认

  /

  [3] HTML 页面元素确认 [4] 平台代码

  

  package com.ruixuesoft.crawler.open.rule;

import com.ruixuesoft.crawler.open.RxCrawler;

import com.ruixuesoft.crawler.open.RxCrawlerException;

import com.ruixuesoft.crawler.open.RxDatabase;

import com.ruixuesoft.crawler.open.RxNode;

import com.ruixuesoft.crawler.open.RxResult;

import com.ruixuesoft.crawler.open.RxRule;

import com.ruixuesoft.crawler.open.RxTask;

public class Rule implements RxRule {

@Override

public RxResult execute ( RxTask task , RxCrawler crawler , RxDatabase database ) throws RxCrawlerException {

task.log ( "百度搜索结果抓取-开始" );

//打开要抓取的网站页面

crawler.open ( "https://www.baidu.com/" );

//得到参数v1输入框里的值

String searchKey = task.getV1();

//通过XPath的方式,选取搜索关键字框,输入查询关键字

crawler.input ( "//*[@id='kw']" , searchKey );

//有页面刷新,等待1秒

crawler.sleepSeconds ( 1 );

//通过XPath的方式,选取[百度一下]按钮,点击

RxNode searchNode = crawler.getNodeByXpath ( "//*[@id='su']" );

searchNode.click ();

<p>

//有页面刷新,等待1秒

crawler.sleepSeconds ( 1 );

//搜索结果一览的xpath

String baseXpath = "//*[@id=&#39;%s&#39;]/h3/a";

//输出第一页的10条搜索结果

for( int i = 1 ;i

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线