网站内容抓取工具(ScreamingFrogSEOSpiderforMac是一个网站爬虫软件吗?)
优采云 发布时间: 2022-04-05 06:18网站内容抓取工具(ScreamingFrogSEOSpiderforMac是一个网站爬虫软件吗?)
Screaming Frog SEO Spider for Mac 是一款专门为抓取 URL 进行分析而设计的网络爬虫开发工具。您可以使用此软件快速抓取网站中可能出现的断开链接和服务器错误,或识别网站中的临时和永久重定向链接循环,还可以检查仪表板中可能出现的重复问题,例如URL 、页面标题、描述和内容。喜欢这个软件?
软件介绍
Screaming Frog SEO Spider for Mac 是一个 网站 爬虫,允许您爬取 网站 URL 并获取关键元素、分析和审计技术以及现场 SEO。
特征
1、找到断开的链接
现在抓取 网站 并查找断开的链接 (404s) 和服务器错误。批量导出错误和源 URL 以修复或发送给开发人员。
2、审计重定向
查找临时和永久重定向,识别重定向链和循环,或上传 URL 列表以供在站点迁移中查看。
3、分析页面标题和元数据
在抓取过程中分析页面标题和元描述,并识别 网站 中过长、过短、缺失或重复的内容。
4、发现重复
使用 md5 算法检查完全重复的 URL、部分重复的元素(例如页面标题、描述或标题)并查找内容低的页面。
5、使用 XPath 提取数据
使用 CSS 路径、XPath 或正则表达式从网页的 HTML 中采集任何数据。这可能包括社交元标签、其他标题、价格、SKU 或更多!
6、查看机器人和说明
查看被 robots.txt、meta-robots 或 X-Robots-Tag 指令(例如“noindex”或“nofollow”)以及规范和 rel="next" 和 rel="prev" 阻止的 URL。
7、生成 XML 站点地图
通过 URL 的高级配置快速创建 XML 站点地图和图像 XML 站点地图,包括上次修改、优先级和更改频率。
8、与谷歌分析集成
连接到 Google Analytics API 并获取用于抓取功能的用户数据,例如会话或跳出率以及着陆页的转化、目标、交易和收入。
9、抓取 JavaScript网站
使用集成的 Chromium WRS 渲染网页,以抓取动态的、富含 JavaScript 的 网站 以及 Angular、React 和 Vue.js 等框架。
10、可视化网站架构
使用交互式爬网和目录强制导向和树状图站点可视化评估内部链接和 URL 结构。
快速总结
错误 - 客户端错误,例如链接断开和服务器错误(无响应、4XX、5XX)。
重定向 - 永久、临时重定向(3XX 响应)和 JS 重定向。
阻止的 URL - robots.txt 协议不允许查看和审查 URL。
被阻止的资源 - 在呈现模式下查看和审核被阻止的资源。
外部链接 - 所有外部链接及其状态代码。
协议 - URL 是安全的 (HTTPS) 还是不安全的 (HTTP)。
URI 问题 - 非 ASCII 字符、下划线、大写字符、参数或长 URL。
Duplicate Pages - Hash/MD5checksums 算法检查精确的重复页面。
页面标题 - 缺失、重复、超过 65 个字符、短、像素宽度被截断、相同或大于 h1。
元描述 - 缺失、重复、超过 156 个字符、短、像素宽度被截断或多个。
元关键字 - 主要用于参考,因为它们不被 Google、Bing 或 Yahoo 使用。
文件大小 - URL 和图像的大小。
响应时间。
最后修改的标题。
页面(爬行)深度。
字数。
H1 - 缺失、重复、超过 70 个字符、多个。
H2 - 缺失、重复、超过 70 个字符、多个。
Metabots - 索引、无索引、关注、nofollow、noarchive、nosnippet、noodp、noydir 等。
元刷新 - 包括目标页面和时间延迟。