java爬虫抓取动态网页(#爬虫为什么要监控gecco是一个十分简单的java开源爬虫框架)

优采云 发布时间: 2021-10-14 09:27

  java爬虫抓取动态网页(#爬虫为什么要监控gecco是一个十分简单的java开源爬虫框架)

  #java攀虫geccomonitoring来了,没有连胜##为什么爬虫监控gecco是一个非常简单易用的java开源爬虫框架,也是一个扩展性很强的框架。目前,有:

  组合弹簧插件gecco-spring

  Gecco-htmlunit,一个与htmlunit结合的插件

  插件 gecco-reids 结合 reids

  开发爬虫时,需要爬取很多网站和链接,将爬取到的网站内容提取出来。如果不监控大量的链接下载和内容提取,很难发现问题。特别是对于主题爬虫,需要提取页面的具体内容。如果网站被修改,必须尽快发现并纠正。完成基础框架和必要的插件后,gecco爬虫框架将重点进行监控的开发。

  gecco框架的基本设计原则是对扩展的开放和对修改的关闭的开闭原则是一致的。gecco爬虫的监控模块也是基于这个原理,基于jmx协议,使用aop模式。

  

  ##监控指标###爬虫基本信息

  ###下载监控

  ###内容提取监控

  ##jmxutils 和 jolokia ###jmxutils gecco 的监控使用 jmxutils,一个开源的 mbean 注释框架。在之前的开发工作中,要么使用了原生的动态mbean,要么使用了spring jmx注解框架。原生动态mbean写起来太麻烦。Spring的jmx注解框架用起来还是很方便的,但是现在spring感觉有点重了。jmxutils 框架非常轻量级,可以参考使用。###jolokia Jolokia 是一个开源项目,它使用 JSON 通过 Http 实现 JMX 远程管理。它快速而简单。除了支持基本的 JMX 操作外,它还提供了一些独特的功能来增强 JMX 远程管理,例如批量请求、细粒度的安全策略等。 也就是说,jmx的mbean可以通过http访问,启动java的时候不用配置那么多参数。只需要添加一个servlet:

  

jolokia-agent

org.jolokia.http.AgentServlet

jolokia-agent

/jmx/*

  这样就可以方便地控制和访问应用程序中的mbean。jolokia 还提供了 java 客户端和 js 客户端来访问 mbean。具体用法和权限控制请查看jolokia官方文档

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线