网页抓取数据 免费(蜘蛛协议风铃虫的原理简单使用提取器的作用)
优采云 发布时间: 2021-09-18 15:08网页抓取数据 免费(蜘蛛协议风铃虫的原理简单使用提取器的作用)
风铃简介
风铃虫是一种轻量级的爬虫工具。它像风铃一样敏感,像蜘蛛一样敏捷。它可以感知任何微小的风和草的运动,轻松抓取互联网上的内容。这是一个对目标服务器相对友好的spider程序。它内置了20多个常见或不常见的浏览器徽标。它可以自动处理cookie和网页源信息,轻松绕过服务器限制,智能调整请求间隔,动态调整请求频率,防止对目标服务器的干扰。此外,风铃对于普通用户来说也是一个非常友好的工具。它提供了大量的链接提取器和内容提取器,因此用户可以随意快速配置,甚至可以配置自己的爬虫程序,只要他们提供一个启动请求地址。同时,风铃还打开了许多用户定义的界面,高级用户可以根据自己的需要定制爬虫功能。最后,wind chime还自然支持分布式和集群功能,允许您突破单机环境的限制,释放您的爬虫能力。可以说,风铃几乎可以捕捉到网站的大部分内容
[声明]请不要将风铃应用于任何可能违反法律法规和道德约束的工作。请善用风铃,遵守蜘蛛协议,不要将风铃用于任何非法目的。如果您选择使用风铃,您将代表您遵守本协议。作者不承担因您违反本协议而造成的任何法律风险和损失,一切后果由您承担
快速使用
com.yishuifengxiao.common
crawler
2.2.1
通讯组:
(组号)624646260)
简单使用
在Yahoo Finance的内容页上提取电子货币的名称
// 创建一个提取属性规则
// 该提取规则标识XPATH表示使用XPATH提取器进行提取,
// 该XPATH提取器的XPATH表达式为 //h1/text() , 该提取提取器的作用顺序是0
ExtractFieldRule extractFieldRule = new ExtractFieldRule(Rule.XPATH, "//h1/text()", "", 0);
// 创建一个提取项
ExtractRule extractRule = new ExtractRule();
extractRule
// 提取项代码,不能为空,同一组提取规则之内每一个提取项的编码必须唯一
.setCode("code")
// 提取项名字,可以不设置
.setName("加密电子货币名字")
// 设置提取属性规则
.setRules(Arrays.asList(extractFieldRule));
// 创建一个风铃虫实例
Crawler crawler = CrawlerBuilder.create()
// 风铃虫的起始链接
.startUrl("https://hk.finance.yahoo.com/cryptocurrencies")
// 风铃虫会将请求到的网页中的URL先全部提取出来
// 然后将匹配链接提取规则的链接过滤出来,放入请求池中
// 请求池中的链接会作为下次抓取请求的*敏*感*词*链接
// 可以以添加多个链接提取规则,多个规则之间是并列(或连接)的关系
// 如果不设置则表示提取链接中所有包含域名关键字(例如此例中的yahoo)的链接放入链接池
// 此例中表示符合该正则表达式的链接都会被提取出来
.addLinkRule(new MatcherRule(Pattern.REGEX, "https://hk.finance.yahoo.com/quote/.+"))
// 内容页地址规则是告诉风铃虫哪些页面是内容页
// 对于复杂情况下,可以与 内容匹配规则 配合使用
// 只有符合内容页规则的页面才会被提取数据
// 对于非内容页,风铃虫不会尝试从中提取数据
// 此例中表示符合该正则表达式的网页都是内容页,风铃虫会从这些页面里提取数据
.contentPageRule(new MatcherRule(Pattern.REGEX, "https://hk.finance.yahoo.com/quote/.+"))
// 风铃虫可以设置多个提取项,这里为了演示只设置了一个提取项
// 增加一个提取项规则
.addExtractRule(extractRule)
// 请求间隔时间
// 如果不设置则使用默认时间10秒,此值是为了防止抓取频率太高被服务器封杀
.interval(3000)// 每次进行爬取时的平均间隔时间,单位为毫秒,
.creatCrawler();
// 启动爬虫实例
crawler.start();
// 这里没有设置信息输出器,表示使用默认的信息输出器
// 默认的信息输出器使用的logback日志输出方法,因此需要看控制台信息
// 由于风铃虫是异步运行的,所以演示时这里加入循环
while (Statu.STOP != crawler.getStatu()) {
try {
Thread.sleep(1000 * 20);
} catch (InterruptedException e) {
e.printStackTrace();
}
}
上述示例的功能是在Yahoo Finance的内容页上提取电子货币的名称。如果用户想提取其他信息,只需根据规则配置其他提取规则即可
请注意,以上示例仅用于学习和演示。风铃虫用户应严格遵守相关法律法规和target网站的蜘蛛协议@
风铃原理
风铃的原理很简单。它主要由资源调度器、网页下载器、链接解析器、内容解析器和信息输出等组成
它们的职能和作用如下:
链接解析器由一系列链接提取器组成。目前,link提取器主要支持常规提取
内容解析器由一系列内容提取器组成。不同的内容提取器具有不同的功能,适用于不同的解析场景,支持多个提取器的重复和循环等多种组合
上述组件提供了自定义配置界面,用户可以根据实际需要进行自定义配置,以满足各种复杂甚至异常场景的需求
风铃草的内置内容物提取器包括:
原创文本提取器中文提取器常量提取器CSS内容提取器CSS文本提取器邮箱提取器号码提取器常规提取器字符删除提取器字符替换提取器字符串*敏*感*词*XPath提取器数组*敏*感*词*
在提取文本内容时,用户可以自由组合这些提取器来提取他们需要的内容。有关提取器的更具体用法,请参阅内容提取器的用法
wind chime的内置浏览器徽标包括:
谷歌浏览器(windows,Linux)opera浏览器(windows,MAC)Firefox浏览器(windows,Linux,MAC)IE浏览器(IE9、 IE11)EDAG浏览器Safari浏览器(Windows版本、Mac版本)
抓取JS渲染网站
核心代码如下:
Crawler crawler = ...
crawler .setDownloader(new SeleniumDownloader("C:\\Users\\yishui\\Desktop\\geckodriver\\win32.exe",3000L))
分布式支持
核心代码如下:
....
//省略其他代码
....
//创建redis资源调度器
Scheduler scheduler=new RedisScheduler("唯一的名字",redisTemplate)
//创建一个redis资源缓存器
RequestCache requestCache = new RedisRequestCache(redisTemplate);
crawler
.setRequestCache(requestCache) //设置使用redis资源缓存器
.setScheduler(scheduler); //设置使用redis资源调度器
....
//省略其他代码
....
//启动爬虫实例
crawler.start();
状态监测
windbell bug还提供了强大的状态监控和事件监控功能,通过状态*敏*感*词*器和事件*敏*感*词*器,windbell bug可以让您像手背一样了解任务的运行情况,实时控制实例运行中遇到的各种问题,真正了解操作n的任务,便于操作和维护
分析模拟器
由于windbell强大的解析功能和灵活的定义,为了直观了解配置的规则定义的作用,windbell提供了一个解析模拟器,使用户可以快速了解自己的规则定义效果是否达到预期目标,并及时调整规则定义,以方便用户使用简化windbell实例的配置
风铃平台效果演示
配置基本信息
配置爬网程序的名称、使用的线程数和超时停止时间
配置链接爬网信息
配置爬虫的起始*敏*感*词*链接和从网页里提取下一次抓取时的链接的提取规则
配置站点信息
此步骤一般可以省略,但是对于某些会校验cookie和请求头参数的网站,此配置非常有用
提取项目配置
配置需要从网站里提取出来的数据,例如新闻标题和网页正文等信息
属性提取配置
调用内容提取器进行任意组合,以根据需要提取出需要的数据
属性提取测试
提前检查提取项目配置是否正确,提取数据是否达到预期目标
相关资源链接
文件地址:
API文档:
正式文件: