网页抓取解密(ScreamingFrogSEOSpider支持抓取网站并查找断开的链接(404))
优采云 发布时间: 2021-10-18 22:17网页抓取解密(ScreamingFrogSEOSpider支持抓取网站并查找断开的链接(404))
Screaming Frog SEO Spider是一款网站优化分析工具,专为搜索引擎优化和链接检测分析网站而设计。Screaming Frog SEO Spider支持爬取网站、查找断链(404)和服务器错误、审计重定向、发现重复内容、分析页面标题和元数据等)等功能。它是一个非常有用的网站优化和SEO工具。这个工具可以模拟谷歌、必应等搜索引擎从SEO的角度抓取网页,同时分析网页的结构和内容,然后给出详细的分析结果。您可以使用本软件快速捕获网站中可能出现的断链和服务器错误,或识别在 网站 中临时和永久重定向的链接。同时您还可以查看信息中心可能出现的重复问题,如网址、页面标题、描述、内容等。爬取分析后,可以批量导出所有这些错误,发送给开发者进行修复。此外,软件还支持使用XPath提取数据,所以只要你的网站结构简洁,在爬取时不用担心出错或遗漏。欢迎下载!软件还支持使用XPath提取数据,所以只要你的网站结构简洁,爬取时不用担心出错或遗漏。欢迎下载!软件还支持使用XPath提取数据,所以只要你的网站结构简洁,爬取时不用担心出错或遗漏。欢迎下载!
PS:本小编带来了Screaming Frog SEO Spider破解版,附安装教程+破解补丁,欢迎下载!
安装破解教程1、 首先在本站下载这个文件包,解压得到如下文件。
2、双击“ScreamingFrogSEOSpider.exe”主程序运行,直接傻瓜式默认下一步即可完成安装。
3、安装成功后,直接运行注册机获取用户名和产品密钥。
4、 然后运行软件,点击License栏下的Enterlicence选项,将获取到的用户名和注册码复制粘贴到窗口中,点击OK。
软件功能 1、 查找断开的链接、错误和重定向
2、分析页面标题和元数据
3、 查看元机器人和说明
4、 审核 hreflang 属性
5、 发现重复页面
6、生成 XML 站点地图
7、 抓取限制
8、获取配置
9、保存,抓取并再次上传
10、自定义源码搜索
11、自定义提取
12、谷歌分析集成
13、Search Console 集成
14、链接指标集成
15、JavaScript 渲染和捕获
16、自定义robots.txt爬虫软件功能1、查找断链
立即抓取 网站 并找到损坏的链接(404) 和服务器错误。批量导出错误和源 URL 以修复或发送给开发人员。
2、审计重定向
查找临时和永久重定向,识别重定向链和循环,或上传 URL 列表以在 网站 迁移期间进行审核。
3、分析页面标题和元数据
在爬取过程中分析页面标题和元描述,确定你的网站中过长、过短、缺失或重复的页面标题和元描述。
4、 发现重复内容
使用 md5 算法检查和查找完全重复的 URL、部分重复的网页标题、描述或标题等元素,并查找内容较低的网页。
5、使用XPath提取数据
使用 CSS Path、XPath 或正则表达式从网页的 HTML 中采集任何数据。这可能包括社交元标签、附加标题、价格、SKU 或更多!
6、 查看机器人和说明
查看被 robots.txt、元机器人或 X-Robots-Tag 命令(例如“noindex”或“nofollow”)和规范以及 rel="next" 和 rel="prev" 阻止的 URL。
7、生成 XML 站点地图
通过包括 URL、最后修改时间、优先级和更改频率在内的高级配置,快速创建 XML 站点地图和图像 XML 站点地图。
8、与谷歌分析集成
连接到 Google Analytics API 并获取用户数据,例如会话或跳出率以及转化、目标、交易和着陆页收入。如何使用一、爬取
1、定期爬取
在正常抓取模式下,Screaming Frog SEO Spider 会抓取您输入的子域,并将默认遇到的所有其他子域视为外部链接(显示在“外部”选项卡下)。在正版软件中,可以调整配置选择抓取网站的所有子域。搜索引擎优化蜘蛛最常见的用途之一是在 网站 上查找错误,例如断开的链接、重定向和服务器错误。为了更好的控制爬取,请使用您的网站 URI结构,SEO蜘蛛配置选项,比如只爬取HTML(图片、CSS、JS等)、排除函数、自定义robots.txt、收录函数或改变搜索引擎优化蜘蛛模式,上传一个URI列表进行爬取。
2、 抓取一个子文件夹
SEO Spider 工具默认从子文件夹路径向前爬取,所以如果要爬取站点上的特定子文件夹,只需输入带有文件路径的 URI 即可。通过直接输入到SEO Spider中,它会抓取/blog/sub目录中收录的所有URI。
3、获取网址列表
通过输入网址并点击“开始”抓取网站,您可以切换到列表模式,粘贴或上传要抓取的特定网址列表。例如,这对于审核重定向时的站点迁移特别有用。
二、配置
在该工具的行货版本中,您可以保存默认的爬取配置,并保存需要时可以加载的配置配置文件。
1、要将当前配置保存为默认值,请选择“文件>配置>将当前配置保存为默认值”。
2、要保存配置文件以便将来加载,请单击“文件>另存为”并调整文件名(描述性最好)。
3、要加载配置文件,请单击“文件>加载”,然后选择您的配置文件或“文件>加载最近”以从最近列表中进行选择。
4、要重置为原创Screaming Frog SEO Spider默认配置,请选择“文件>配置>清除默认配置”。
三、退出
顶部窗口部分的导出功能适用于您在顶部窗口中的当前视野。因此,如果您使用过滤器并单击“导出”,则只会导出过滤器选项中收录的数据。
数据导出方式主要有以下三种:
1、导出顶层窗口数据:只需点击左上角的“导出”按钮,即可从顶层窗口选项卡导出数据。
2、导出下层窗口数据(URL信息、链接、输出链接、图片信息):要导出这些数据,只需在上层窗口中右击要导出的数据的URL,然后点击“导出”在“URL 信息”、“链接”、“输出链接”或“图片信息”下。
3、 批量导出:位于顶部菜单下,允许批量导出数据。您可以通过“all in links”选项导出在抓取中找到的所有链接实例,或者您可以导出所有指向具有特定状态代码(例如 2XX、3XX、4XX 或 5XX 响应)的 URL 的链接。例如,选择“链接中的客户端错误 4XX”选项将导出所有链接到所有错误页面(例如 404 错误页面)。您还可以导出所有图像替代文本、所有图像缺少替代文本和所有锚文本。