网页数据抓取软件(风铃虫的原理与功能如下的作用)

优采云发布时间: 2021-11-25 19:15

　　风铃是一种轻巧的爬行工具，它像风铃一样灵敏，像蜘蛛一样敏捷。它可以感知任何微小的风和草，轻松抓取互联网上的内容。是一个对目标服务器比较友好的蜘蛛程序。内置20多个常用或不常用的浏览器标识，可自动处理cookies和网页源信息，轻松绕过服务器限制，智能调整请求间隔，动态调整请求频率，防止干扰目标服务器。此外，Windchime 也是一个非常人性化的工具。它提供了大量的链接提取器和内容提取器，让用户可以根据自己的需要快速配置，甚至提供启动请求地址来配置自己的爬虫。同时，Windchime 还开放了很多自定义界面，让高级用户可以根据需要自定义爬虫功能。最后，风铃自然也支持分布式和集群功能，让你突破单机环境的束缚，释放爬虫能力。可以说风铃几乎可以抓取当前网站中的所有内容。

　　【声明】请不要在任何可能违反法律和道德限制的工作中使用风铃。请友好使用风铃，遵守蜘蛛协议，不要将风铃用于任何非法用途。如果您选择使用风铃，即表示您遵守本协议。作者不承担因您违反本协议而造成的任何法律风险和损失，一切后果由您自行承担。

　　快速使用

com.yishuifengxiao.common

crawler

替换为最新的版本号

　　使用简单

　　从雅虎财经内容页面中提取电子货币名称

//创建一个提取规则

//该提取规则标识使用 XPATH提取器进行提取，

//该XPATH提取器的XPATH表达式为 //h1/text() ，该提取提取器的作用顺序是0

FieldExtractRule extractRule = new FieldExtractRule(Rule.XPATH, "//h1/text()", "", 0);

//创建一个提取项

ContentItem contentItem = new ContentItem();

contentItem

.setFiledName("name") //提取项代码，不能为空

.setName("加密电子货币名字") //提取项名字，可以不设置

.setRules(Arrays.asList(extractRule)); //设置提取规则

//创建一个风铃虫实例

Crawler crawler = CrawlerBuilder.create()

.startUrl("https://hk.finance.yahoo.com/cryptocurrencies") //风铃虫的起始链接

// 风铃虫会将每次请求的网页的内容中的URL先全部提取出来，然后将完全匹配此规则的链接放入链接池

// 如果不设置则表示提取链接中所有包含域名关键字（例如此例中的ifeng）的链接放入链接池

//链接池里的链接会作为下次抓取请求的*敏*感*词*链接

.addLinkRule("https://hk.finance.yahoo.com/quote/.+")//链接提取规则，多以添加多个链接提取规则，

//可以设置多个内容页的规则，多个内容页规则之间用半角逗号隔开

//只要内容页URL中完全匹配此规则就进行内容提取，如果不设置标识提取域名下所有的链接

.extractUrl("https://hk.finance.yahoo.com/quote/.+") //内容页的规则，

//风铃虫可以设置多个提取项，这里为了演示只设置了一个提取项

.addExtractItem(contentItem) //增加一个提取项

//如果不设置则使用默认时间10秒，此值是为了防止抓取频率太高被服务器封杀

.interval(3)//每次进行爬取时的平均间隔时间，单位为秒，

.creatCrawler();

//启动爬虫实例

crawler.start();

// 这里没有设置信息输出器，表示使用默认的信息输出器

//默认的信息输出器使用的logback日志输出方法，因此需要看控制台信息

//由于风铃虫时异步运行的，所以演示时这里加入循环

while (Statu.STOP != crawler.getStatu()) {

try {

Thread.sleep(1000 * 20);

} catch (InterruptedException e) {

e.printStackTrace();

}

　　上面例子的功能是在雅虎财经的内容页面上提取电子货币的名称。用户若想提取其他信息，只需根据规则配置其他提取规则即可。

　　请注意，以上示例仅供学习和演示使用，Windchime 用户在抓取网页内容时应严格遵守相关法律法规和目标网站的蜘蛛协议

　　风铃原理

　　风铃的原理很简单，主要由资源调度器、网页下载器、链接解析器、内容解析器、信息输出器组成。

　　它们的作用和功能如下：

　　链接解析器由一系列链接提取器组成。目前，链接提取器主要支持常规提取。

　　内容解析器由一系列内容提取器组成。不同的内容提取器具有不同的功能，适用于不同的分析场景，支持重复、循环等多种提取器的多种组合。

　　上述组件都提供了自定义配置接口，让用户可以根据实际需要自定义配置，满足各种复杂甚至异常场景的需求。

　　内置的风铃内容提取器包括：

　　原文抽取器、中文抽取器、常量抽取器、CSS内容抽取器、CSS文本抽取器、邮箱抽取器、号码抽取器、正则抽取器、字符删除抽取器、字符替换抽取器、字符串截取抽取器、XPATH抽取器数组截取...

　　在提取文本内容时，用户可以自由组合这些提取器来提取他们需要的内容。关于提取器的更多具体用法，请参考内容提取器的使用。

　　Windchime 的内置浏览器标志为：

　　Google Chrome（windows版、linux版） Opera浏览器（windows版、MAC版） Firefox（windows版、linux版、MAC版） IE浏览器（IE9、IE11)EDAG Safari浏览器（windows版） , MAC 版)...

　　分布式支持

　　核心代码如下：

....

//省略其他代码

....

//创建redis资源调度器

Scheduler scheduler=new RedisScheduler("唯一的名字",redisTemplate)

//创建一个redis资源缓存器

RequestCache requestCache = new RedisRequestCache(redisTemplate);

crawler

.setRequestCache(requestCache) //设置使用redis资源缓存器

.setScheduler(scheduler); //设置使用redis资源调度器

....

//省略其他代码

....

//启动爬虫实例

crawler.start();

　　状态监控

　　风铃还提供强大的状态监控和事件监控功能。通过状态*敏*感*词*器和事件*敏*感*词*器，风铃让你实时了解任务的运行状态，实时控制实例运行过程中遇到的各种问题，真正做到洞察运行状态任务，方便操作和维护。

　　解析模拟器

　　由于风铃强大的解析功能，规则的定义非常灵活，为了直观的了解配置的规则定义的作用，风铃提供了解析模拟器，让用户快速了解规则定义的效果自己设置的符合预期目标，及时调整规则定义，方便风铃实例的配置。

　　风铃平台效果演示

　　配置基本信息

　　配置爬虫名称、使用线程数和超时停止时间

　　2.配置链接爬取信息

配置爬虫的起始*敏*感*词*链接和从网页里提取下一次抓取时的链接的提取规则

　　3. 配置站点信息

此步骤一般可以省略，但是对于某些会校验cookie和请求头参数的网站，此配置非常有用

　　4 提取项目配置

配置需要从网站里提取出来的数据，例如新闻标题和网页正文等信息

　　5 属性提取配置

调用内容提取器进行任意组合，以根据需要提取出需要的数据

　　6 属性抽取测试

　　提前检查提取项的配置是否正确，提取的数据是否符合预期目标

　　相关资源的链接

　　文件地址：

　　API 文档：

0

2021-11-25

网页数据抓取软件

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页数据抓取软件(风铃虫的原理与功能如下的作用)

0 个评论

发起人