抓取网页数据(风铃虫的核心数源码,网页下载器及其依赖新增selenium相关组件)
优采云 发布时间: 2022-03-27 14:09抓取网页数据(风铃虫的核心数源码,网页下载器及其依赖新增selenium相关组件)
wind-bell 是一款轻量级的爬虫工具,灵敏如风铃,敏捷如蜘蛛,可感知任何小风箱和小草,轻松抓取网络内容。是一个对目标服务器比较友好的爬虫程序。它内置了20多个常用或不常用的浏览器标识符,可自动处理cookies和网页源信息,轻松绕过服务器限制,智能调整请求间隔,动态调整请求频率,防止干扰目标服务器。此外,bellworm 对于普通用户来说也是一个非常友好的工具。它提供了大量的链接提取器和内容提取器,让用户可以快速随心所欲地配置,甚至可以通过提供起始请求地址来配置自己的爬虫程序。同时,bellworm还开放了很多自定义界面,让高级用户可以根据自己的需要自定义爬虫功能。最后,蓝铃还天然支持分布式和集群功能,让你突破单机环境的束缚,释放你的爬取能力。可以说,铃虫几乎可以抢到当前所有网站中的大部分内容。
本次更新内容如下:
移除 Httpclient 网页下载器及其依赖 添加 selenium 相关组件,允许用户自定义 selenium 下载器的实现 添加 SeleniumDownloader 下载器,可下载前端渲染网页 添加资源回收功能,当 bellworm 实例时自动回收下载器停止资源修复网页SEO信息中关键字提取异常的问题。添加内置代码提取器,自动提取网页代码信息。修改请求间隔时间单位和超时等待时间规则属性,使控制能力更加精准。增加了关闭请求间隔时间的功能,控制可以更灵活的增加非法链接过滤功能,自动过滤非法链接,提高爬取效率,
源地址:
API 文档: