网页css js 抓取助手(旅行网站飞行时间或Airbnb列表,可让您使用高级API控制Chrome/Chromium浏览器)

优采云 发布时间: 2022-01-03 09:23

  网页css js 抓取助手(旅行网站飞行时间或Airbnb列表,可让您使用高级API控制Chrome/Chromium浏览器)

  简介:目前,由于其用例数量众多,企业对网页抓取的使用量大大增加。您可能需要抓取旅行 网站 航班时间或 Airbnb 列表,或者您可能想要采集数据(例如来自不同电子商务 网站 的价目表)进行价格比较。或许你需要一台采集机……转发+关注,私信编辑“数据”免费分享给你!

  目前,由于其用例数量众多,企业对网页抓取的使用已大大增加。您可能需要抓取旅行 网站 航班时间或 Airbnb 列表,或者您可能想要采集数据(例如来自不同电子商务 网站 的价目表)进行价格比较。也许您需要为机器学习采集训练和测试数据集。这就是网络抓取发挥作用的地方。

  在这里,我们将探索最好的网络抓取工具。

  傀儡师

  Puppeteer 不仅仅是一个网络爬虫。它是一个 Node.js 库,允许您使用高级 API 控制 Chrome/Chromium 浏览器。 Puppeteer 默认无法运行,但可以配置为运行完整的无头 Chrome 或 Chromium。

  使用 Puppeteer,您可以执行以下操作:

  

  带有文本标签的箭头

  干杯

  Cheerio 是一个用于解析标签的库。它提供了用于处理结果数据结构的 API。 Cheerio 的最大优点是它不会像 Web 浏览器那样解释结果。但是,它不产生视觉效果,也不加载外部资源或应用 CSS。因此,如果您的用例需要它们,则需要考虑 PhantomJS 之类的项目。

  值得一提的是,在 Cheerio 中,使用 Node.js 来抓取 网站 要容易得多。沃尔玛等公司使用 Cheerio 来托管他们的移动 网站 服务器渲染。

  请求-承诺

  Request-Promise 是 npm 实际库的变体。它通过自动浏览器提供更快的解决方案。当内容不是动态呈现的时候,可以使用这个网络爬虫。如果您使用身份验证系统处理 网站,它可能是一个更高级的解决方案。如果我们将其与 Puppeteer 进行比较,则在用法上正好相反。

  噩梦

  Nightmare 是一个高级浏览器自动化库,可以将电子作为浏览器运行。是精简版,也可以说是Puppeteer的简化版。它具有提供更大灵活性的插件,包括对文件下载的支持。

  渗透

  Osmosis 是一个 HTML/XML 解析器和网页抓取工具。它是用 Node.js 编写的,带有一个 CSS3/xpath 选择器和一个轻量级的 HTTP 包装器。如果与 Cheerio、jQuery 和 jsdom 相比,它没有明显的依赖关系。

  总结

  除了这些网页抓取工具之外,您还可以使用许多其他工具和资源。这一切都取决于您的项目要求。但是,有些网站不允许抓取,因此在尝试抓取任何网站之前,请确保您做得很好。

  需要看java吗?网络、大数据、信息:

  老规矩:转发+关注,私信编辑“数据”免费分享给你!

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线