网站内容抓取工具(ScreamingFrogSEOSpider中文名功能介绍及应用方法介绍)

优采云 发布时间: 2021-10-24 05:18

  网站内容抓取工具(ScreamingFrogSEOSpider中文名功能介绍及应用方法介绍)

  Screaming Frog SEO Spider 是一款专业的*敏*感*词*网络爬虫开发工具。该软件由一个菜单栏和多个显示各种信息的选项卡式窗格组成,允许用户使用一种新的、简单的方法来采集有关任何固定站点的 SEO 信息,以便您可以轻松地在不同的网站上抓取您需要的内容.

  Screaming Frog SEO Spider 在中文中被称为 Screaming Frog。不仅支持网站资源检测、搜索和爬取,本软件还可以设置自定义分析扩展页面功能,让软件自动创建一个网站分析几十上百个网页界面,是一款非常实用的网站优化SEO工具。

  

  Screaming Frog SEO Spider 的特点

  1、查找损坏的链接、错误和重定向

  2、分析页面标题和元数据

  3、查看元机器人和说明

  4、 审核 hreflang 属性

  5、 发现重复页面

  6、生成 XML 站点地图

  7、网站可视化

  8、 抓取限制(无限制)

  9、调度

  10、抓取配置

  11、 保存,抓取并再次上传

  12、自定义源码搜索

  13、自定义提取

  14、谷歌分析集成

  15、搜索控制台集成

  16、链接指标集成

  17、 渲染(JavaScript)

  18、自定义robots.txt

  19、AMP抓取与验证

  20、结构化数据与验证

  21、 存储和查看原创和渲染的 HTML

  

  Screaming Frog SEO Spider 功能

  1、找到断开的链接

  立即抓取 网站 并找到断开的链接 (404) 和服务器错误。批量导出错误和源URL进行修复,或发送给开发者。

  2、分析页面标题和元数据

  在爬取过程中分析页面标题和元描述,找出网站中过长、缺失、缺失或重复的内容。

  3、使用XPath提取数据

  使用 CSS Path、XPath 或正则表达式从网页的 HTML 中采集任何数据。这可能包括社交元标签、其他标题、价格、SKU 或更多!

  4、生成XML站点地图

  快速创建 XML 站点地图和图片 XML 站点地图,并通过 URL 进行高级配置,包括最后修改、优先级和更改频率。

  5、抓取 JavaScript网站

  使用集成的 Chromium WRS 渲染网页以抓取动态的、富含 JavaScript 的 网站 和框架,例如 Angular、React 和 Vue、js、

  6、 审计重定向

  查找临时和永久重定向,识别重定向链和循环,或上传 URL 列表以在站点迁移期间进行审查。

  7、 发现重复内容

  使用 md5 算法检查和查找完全重复的 URL、部分重复的元素(例如页面标题、描述或标题)并查找低内容页面。

  8、 查看机器人和说明

  查看被机器人、txt、元机器人或 X-Robots-Tag 指令(例如“noindex”或“nofollow”)以及规范和 rel="next" 和 rel="prev" 阻止的 URL。

  9、与谷歌分析集成

  连接到 Google Analytics API 并获取用于抓取功能的用户数据,例如会话或跳出率以及来自抓取页面的转化、目标、交易和收入。

  10、可视化站点架构

  使用交互式爬行和目录强制地图和树形地图站点直观地评估内部链接和 URL 结构。

  指示

  一、 爬行

  1、定期爬取

  在正常爬取模式下,Screaming Frog SEO Spider 13 破解版会爬取您输入的子域,并将遇到的所有其他子域默认视为外部链接(显示在“外部”选项卡下)。在正版软件中,可以调整配置选择抓取网站的所有子域。搜索引擎优化蜘蛛最常见的用途之一是在 网站 上查找错误,例如断开的链接、重定向和服务器错误。为了更好的控制爬取,请使用您的网站 URI结构、SEO蜘蛛配置选项,例如只爬取HTML(图片、CSS、JS等)、排除函数、自定义robots.txt、收录函数或改变搜索引擎优化蜘蛛模式,上传一个URI列表进行爬取

  2、 抓取一个子文件夹

  SEO Spider 工具默认从子文件夹路径向前爬取,所以如果要爬取站点上的特定子文件夹,只需输入带有文件路径的 URI 即可。直接进入SEO Spider,会抓取/blog/sub目录下的所有URI

  3、获取网址列表

  通过输入网址并点击“开始”抓取网站,您可以切换到列表模式,粘贴或上传要抓取的特定网址列表。例如,这对于审核重定向时的站点迁移特别有用

  二、配置

  在该工具的行货版本中,可以保存默认的爬取配置,并保存需要时可以加载的配置文件

  1、要将当前配置保存为默认值,请选择“文件>配置>将当前配置保存为默认值”

  2、要保存配置文件以便日后加载,请点击“文件>另存为”并调整文件名(描述性最好)

  3、要加载配置文件,请点击“文件>加载”,然后选择您的配置文件或“文件>加载最近”从最近列表中选择

  4、要重置为原创默认配置,请选择“文件>配置>清除默认配置”

  三、退出

  顶部窗口部分的导出功能适用于您在顶部窗口中的当前视野。因此,如果您使用过滤器并单击“导出”,则只会导出过滤器选项中收录的数据

  数据导出方式主要有以下三种:

  1、导出顶层窗口数据:只需点击左上角的“导出”按钮,即可从顶层窗口选项卡导出数据

  2、导出下层窗口数据(URL信息、链接、输出链接、图片信息):导出这些数据,只需在上层窗口右击要导出数据的URL,然后点击“导出” “网址信息”、“链接”、“传出链接”或“图片信息”下

  3、 批量导出:位于顶部菜单下,允许批量导出数据。您可以通过“all in links”选项导出在抓取中找到的所有链接实例,或者您可以导出所有指向具有特定状态代码(例如 2XX、3XX、4XX 或 5XX 响应)的 U​​RL 的链接。例如,选择“链接中的客户端错误 4XX”选项将导出所有链接到所有错误页面(例如 404 错误页面)。您还可以导出所有图像替代文本,所有图像缺少替代文本和所有锚文本

  资源下载 本资源下载价格为2元,请先登录

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线