网页信息抓取软件(风铃虫的作用与功能如下的原理简单提取)

优采云 发布时间: 2022-01-31 10:18

  网页信息抓取软件(风铃虫的作用与功能如下的原理简单提取)

  wind-bell 是一款轻量级的爬虫工具,灵敏如风铃,敏捷如蜘蛛,可感知任何小风箱和小草,轻松抓取网络内容。是一个对目标服务器比较友好的爬虫程序。它内置了20多个常用或不常用的浏览器标识符,可自动处理cookies和网页源信息,轻松绕过服务器限制,智能调整请求间隔,动态调整请求频率,防止干扰目标服务器。此外,bellworm 对于普通用户来说也是一个非常友好的工具。它提供了大量的链接提取器和内容提取器,让用户可以快速随心所欲地配置,甚至可以通过提供起始请求地址来配置自己的爬虫程序。同时,Windbell还开放了很多自定义界面,让高级用户可以根据自己的需要自定义爬虫功能。最后,蓝铃还天然支持分布式和集群功能,让你突破单机环境的束缚,释放你的爬取能力。可以说,铃虫几乎可以抢到当前所有网站中的大部分内容。

  【声明】请不要将风铃草应用于任何可能违反法律规定和道德约束的工作。请善待风铃草,遵守蜘蛛协议,请勿将风铃草用于任何非法用途。如果您选择使用风铃草,即表示您遵守本协议,作者不承担因您违反本协议而产生的任何法律风险和损失,一切后果由您承担。

  快速使用

  com.yishuifengxiao.common crawler 替换为最新的版本号

  使用简单

  从雅虎财经的内容页面中提取电子货币的名称

   //创建一个提取规则 //该提取规则标识使用 XPATH提取器进行提取, //该XPATH提取器的XPATH表达式为 //h1/text() , 该提取提取器的作用顺序是0 FieldExtractRule extractRule = new FieldExtractRule(Rule.XPATH, "//h1/text()", "", 0); //创建一个提取项 ContentItem contentItem = new ContentItem(); contentItem .setFiledName("name") //提取项代码,不能为空 .setName("加密电子货币名字") //提取项名字,可以不设置 .setRules(Arrays.asList(extractRule)); //设置提取规则 //创建一个风铃虫实例 Crawler crawler = CrawlerBuilder.create() .startUrl("https://hk.finance.yahoo.com/cryptocurrencies") //风铃虫的起始链接 // 风铃虫会将每次请求的网页的内容中的URL先全部提取出来,然后将完全匹配此规则的链接放入链接池 // 如果不设置则表示提取链接中所有包含域名关键字(例如此例中的ifeng)的链接放入链接池 //链接池里的链接会作为下次抓取请求的*敏*感*词*链接 .addLinkRule("https://hk.finance.yahoo.com/quote/.+")//链接提取规则,多以添加多个链接提取规则, //可以设置多个内容页的规则,多个内容页规则之间用半角逗号隔开 //只要内容页URL中完全匹配此规则就进行内容提取,如果不设置标识提取域名下所有的链接 .extractUrl("https://hk.finance.yahoo.com/quote/.+") //内容页的规则, //风铃虫可以设置多个提取项,这里为了演示只设置了一个提取项 .addExtractItem(contentItem) //增加一个提取项 //如果不设置则使用默认时间10秒,此值是为了防止抓取频率太高被服务器封杀 .interval(3)//每次进行爬取时的平均间隔时间,单位为秒, .creatCrawler(); //启动爬虫实例 crawler.start(); // 这里没有设置信息输出器,表示使用默认的信息输出器 //默认的信息输出器使用的logback日志输出方法,因此需要看控制台信息 //由于风铃虫时异步运行的,所以演示时这里加入循环 while (Statu.STOP != crawler.getStatu()) { try { Thread.sleep(1000 * 20); } catch (InterruptedException e) { e.printStackTrace(); } }

  上面例子的作用是提取雅虎财经内容页面的电子货币名称。如果用户想提取其他信息,只需要根据规则配置其他提取规则即可。

  请注意,以上示例仅用于学习和演示目的。bellworm用户在抓取网页内容时,应严格遵守相关法律规定和目标网站的蜘蛛协议

  铃虫的原理

  

  bellworm的原理极其简单,主要由资源调度器、网页下载器、链接解析器、内容解析器、信息导出器组成。

  它们的作用和作用如下:

  链接解析器由一系列链接提取器组成。目前,链接提取器主要支持正则提取。

  内容解析器由一系列内容提取器组成。不同的内容提取器功能不同,适用于不同的解析场景,支持多个提取器的多种组合,如重复、循环等。

  以上组件均提供自定义配置接口,用户可根据实际需要自定义配置,满足各种复杂甚至异常场景的需求。

  Campanula 的内置内容提取器有:

  文本提取器中文提取器常量提取器CSS内容提取器CSS文本提取器邮箱提取器数字提取器常规提取器字符删除提取器字符替换提取器字符串截取提取器XPATH提取器数组截取...

  在提取文本内容时,用户可以自由组合这些提取器来提取自己需要的内容。有关提取器的更具体用法,请参阅内容提取器用法。

  Campanula 的内置浏览器标识符为:

  Google Chrome(windows 版、linux 版) Opera 浏览器(windows 版、MAC 版) Firefox 浏览器(windows 版、linux 版、MAC 版) IE 浏览器(IE9、IE11)EDAG 浏览器 Safari 浏览器( windows版,MAC版)...

  分布式支持

  核心代码如下:

  ....//省略其他代码.... //创建redis资源调度器 Scheduler scheduler=new RedisScheduler("唯一的名字",redisTemplate) //创建一个redis资源缓存器 RequestCache requestCache = new RedisRequestCache(redisTemplate); crawler .setRequestCache(requestCache) //设置使用redis资源缓存器 .setScheduler(scheduler); //设置使用redis资源调度器 ....//省略其他代码....//启动爬虫实例crawler.start();

  状态监控

  Campanula 还提供强大的状态监控和事件监控功能。通过状态*敏*感*词*器和事件*敏*感*词*器,Campanula 让您可以很好地了解任务的运行状态,并且可以实时控制实例运行过程中遇到的各种问题。任务运行状态一目了然,便于运维。

  解析模拟器

  由于bellflower的解析功能非常强大,而且规则的定义非常灵活,为了直观的了解配置好的规则定义的作用,bellworm提供了解析模拟器,让用户可以快速了解是否效果自己设定的规则定义符合预期。target,及时调整规则定义,方便bellworm实例的配置。

  风铃平台效果演示

  配置基本信息

  配置爬虫名称、使用的线程数和超时停止时间

  

  2. 配置链接爬取信息

  配置爬虫的起始*敏*感*词*链接和从网页中提取下次爬取链接的提取规则

  

  3. 配置站点信息

  这一步一般可以省略,但是对于一些会校验cookies和请求头参数的网站,这个配置还是很有用的

  

  4 提取项配置

  配置需要从网站中提取的数据,如新闻头条、网页正文信息等

  

  5 属性提取配置

  调用任何组合的内容提取器,以根据需要提取所需的数据

  

  6 属性抽取测试

  提前检查提取项的配置是否正确,提取的数据是否达到预期目标

  

  相关资源链接

  文件地址:

  API 文档:

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线