js 抓取网页内容(代理支持·支持TLS/SSL协议)
优采云 发布时间: 2022-02-22 23:18js 抓取网页内容(代理支持·支持TLS/SSL协议)
· 代理支持
· 支持TLS/SSL协议
2. Cheerio(又名解析器):
· Cheerio 提供了为服务器设计的核心 jQuery 的快速、灵活和精简的实现。
Cheerio 解析令牌并提供用于遍历/操作结果数据结构的 API。
特征:
熟悉的语法: Cheerio 实现了核心 jQuery 的一个子集。它去除了jQuery库中所有的DOM不一致和浏览痕迹,充分展示了API的魅力。
快速: Cheerio 使用非常简单、一致的 DOM 模型。因此,解析、操作和渲染非常有效。初步的端到端基准测试显示,cheerio 比 JSDOM 快 8 倍左右。
· 惊人的灵活性: Cheerio 几乎可以解析任何 HTML 或 XML 文档。
3.渗透(又名解析器)
· Osmosis 包括 HTML/XML 解析器和 webscraper。
· 它是用node.js 编写的,包括css3/xpath 选择器和轻量级http 包装器。
· 没有像 Cheerio 这样的大依赖。
特征:
· 支持 CSS 3.0 和 XPath1.0 选择器的混合
· 加载和搜索 AJAX 内容
· 记录 url、重定向和错误
· cookie jar 和自定义 cookie/header/user-agent
· 登录/表单提交、会话 cookie 和基本身份验证
· 单代理或多代理,处理代理故障
· 重试和重定向限制
4. Puppeteer(又名无头 Chrome 自动化浏览器):
Puppeteer 是一个 Node.js 库,它提供了一个简单但高效的 API,使您能够控制 Google 的 Chrome 或 Chromium 浏览器。
它还能够在无头模式下运行 Chromium(对于在服务器上运行浏览器很有用),并且可以在不需要用户界面的情况下发送和接收请求。
最好的部分是它在后台运行,执行 API 告诉您执行的操作。
特征:
· 点击按钮、链接和图片等元素
· 自动提交表单
· 导航页面
· 使用时间线跟踪来识别问题
· 直接在浏览器中自动测试用户界面和各种前端应用程序
· 截屏
· 将网页转换为 pdf 文件
5. Apify SDK(又名完整的网页抓取框架):
Apify SDK 是一个用于抓取和网络爬取的开源 Node.js 库。
· Apify SDK 是一个独特的工具,可以简化网络爬虫、爬虫、数据提取器和网络自动化作业的开发。
提供工具来管理和自动扩展无头 Chrome/Puppeteer 实例池、维护要抓取的 url 队列、将抓取结果存储到本地文件系统或云、轮换代理等。
· 可以在自己的应用程序中独立使用,也可以在运行在 Apify 云上的参与者中使用。
特征:
· 使用 URL 的持久队列深度爬取整个 网站。
在 CSV 文件中运行具有 100k url 的抓取代码,代码崩溃时不会丢失任何数据。
·通过旋转代理隐藏您的浏览器源。
· 定期安排代码运行和发送错误通知。
· 禁用网站 使用的浏览器指纹保护。
要混淆和加密 JS 代码,请使用 JShaman()。