网页源代码抓取工具(服务器的gzip服务的好处及好处化的方法介绍)
优采云 发布时间: 2022-03-26 01:16网页源代码抓取工具(服务器的gzip服务的好处及好处化的方法介绍)
查看引用不安全/混合内容(图像或其他文件)的页面列表
测试单个页面的加载速度以查找慢元素或测量总重量
查看未压缩和压缩文件大小,轻松了解服务器 gzip 服务的优势
4、机器人化:
以浏览器所见的方式查看页面 - 即仅提取并单独列出文本、标题、链接、元数据。
此工具可用作独立的纯文本 Web 浏览器
5、网站地图:
导出为 XML(符合标准协议以提交给搜索引擎)
对于较大的站点,站点地图生成为带有站点地图索引文件的一系列文件(从 v6.8.9 开始)
生成后将站点地图文件 FTP 到服务器
在 Scrutiny 中以可视化形式查看站点地图
可视化现在包括“飞行”3D 结构
导出为 .dot 文件以在 Omnigraffle 等第三方可视化软件中显示。(评论现在可以使用一系列主题显示这些可视化,我现在有一个单独的免费应用程序来显示这些可视化)
6、SEO 审核:
显示 SEO 参数,如 url、标题、描述、主标题、noindex/nofollow
关键字密度警报 - 查看出现在特定阈值(“填充”)内容内的任何关键字的页面。双击查看该页面的分析,最多检查 4 个单词。
关键字/短语分析 - 查看 url/title/deion/content 中任何单词/短语的计数
列出缺少 SEO 参数(标题、描述等)的页面
列出可能的重复页面(相同的内容,不同的 URL)
列表页面描述太长/太短
列出标题过长的页面(从 v5.6 开始新增。)
列出收录太多链接的页面
列出内容稀少的页面
列出收录混合内容的页面(://resources in pages)
列出深层内容(X 链接大于主页)
查找没有替代文字的图像
列出带有重定向链的页面
显示每个页面的统计信息,例如字数、链接数、内容大小、图像数、图像权重
7、拼写和语法:
扫描时检查页面是否存在拼写和语法问题
逐步浏览这些并查看建议
选择拼写检查器在每个站点使用的语言
8、孤儿检查:
比较通过 ftp 从服务器获取的页面与通过爬网获取的页面,报告可能是孤立页面
从7.2,可以遍历本地文件/目录,并与http:crawl进行比较
9、报告:
可在计划或临时扫描后生成可定制的摘要报告,其中收录关于坏链接、SEO 问题和拼写/语法问题的统计信息
完整报告收录主表的摘要报告和csv
饼图(用于链接)和雷达图(用于 SEO)收录在摘要报告中。
自定义标题可以收录在此报告中,以便提交给客户或经理
使用外部工具构建您自己的自定义报告 - 导出的 csv 文件与 Google Data Studio 兼容
可以保存和重新加载审查数据 - 继续处理损坏的链接或其他问题而无需重新扫描
10、网站监视器:
设置任意数量的 URL,以您设置的频率进行测试
如果收到意外的响应代码,可以在屏幕上发出警报、发送电子邮件和/或写入日志文件
使用 W3C 验证器对单个页面进行 HTML 验证
安排扫描(例如每周或每月)定期检查网站,无需记住
从 v5 开始,这更容易,并且提供了许多可以在扫描完成时执行的操作。
无需详细扫描即可执行详细扫描。
许多导出选项,包括完整报告、站点地图 xml、任何表格的 csv、图形可视化
存档功能现在得到了增强,可以在扫描时以站点吸盘类型的方式创建可浏览的本地存档
使用不同的设置管理任意数量的 网站
改进的 v5 - 更大的图标、可排序的列(名称、url 或上次检查的日期)和搜索框
通过停靠图标查看进度
Scrutiny 9 Mac版软件常见问题
1、检索完成,只报告了一个链接
快速测试 - 关闭浏览器中的 javascript 和 cookie 并尝试重新加载页面。如果您没有按预期看到您的页面,则您的 网站 需要启用一项或两项。这些选项位于站点设置和高级选项卡下的选项下。
首先要尝试将用户代理字符串切换到 Googlebot(这是首选项中的第一项,第一个选项卡,您应该能够从下拉列表中选择 googlebot)。如果这不起作用,请切换到“真正的”浏览器用户代理字符串之一,即 Safari 或 Firefox。
现在,审查现在有一个工具来帮助诊断此类故障。它可能会预测问题并在尝试爬网后为您提供诊断窗口。如果您拒绝或没有看到该报价,您仍然可以从“工具”菜单“启动 URL 的详细分析”中访问该工具。(无论抓取是否成功,此工具都可以从菜单中获得)。它显示了很多内容,包括加载了 Scrutiny 接收到的页面的浏览器窗口、html 代码本身以及请求/响应的详细信息。
2、页面超时/网络服务器停止响应/509/429/999状态码
这并不少见。一些服务器会同时响应许多请求,但其他服务器会遇到问题,或者如果受到相同 IP 的轰炸,可能会故意停止响应。
引入延迟的解决方案。从版本 8 开始,Scrutiny 可以更优雅地处理它。现在线程滑块上方有一个控件,可让您指定每分钟的最大请求数。
您无需对超时和延迟进行任何数学计算;这不是“每个线程”。Review 将根据您设置的线程数对事物进行计数(使用一些线程将有助于保持事物顺利运行)。如果它符合您指定的最大请求,它将减少线程数。
如果您的服务器响应缓慢,您可以增加超时时间。
据我们所知,999 是 LinkedIn 特有的,它们似乎在阻止自动检查器和机器人方面非常成功。如果您真的不想在结果中使用这些代码,唯一合理的方法是设置规则以忽略或不检查它们。
3、审查似乎抓取了比现有/扫描更多的页面而没有接近完成
Scrutiny 可能陷入循环的原因有很多。查询字符串中很可能存在某种会话 ID 或跟踪 ID,这使得每个 URL 看起来都是唯一的,甚至是对同一页面的重复访问。这可能是一个论坛/讨论区。一个简单的解决方案是使用“忽略查询字符串”设置。
如果您必须允许查询字符串,因为其中有一个页面 ID,Scrutiny 可以选择忽略会话 ID(或其他单个参数)。
4、浏览器中显示正常的链接会报404或其他错误
这发生在 http:// 链接和 https:// 链接都出现在 网站 上的某些服务器上。似乎有些服务器不喜欢对 http 和 https url 的快速请求。尝试从 https:// url 开始并将 http:// 链接列入黑名单(制定规则“不要检查收录 http://”的 url)并查看 https:// 链接是否返回正确的代码。
更改首选项中的用户代理字符串也是值得的,服务器有时会对浏览器不感知的 UA 字符串做出不同的响应,尽管版本 8 会自动使用其他设置进行一定数量的重试
5、[Social网站ie Youtube、Facebook] 的链接在 Scrutiny 中被报告为错误链接或错误,但链接在我的浏览器中可以正常工作吗?
在您的浏览器中,退出相关的 网站,然后访问该链接。然后您将看到 Scrutiny 看到的同一页面,因为默认情况下它不会尝试进行身份验证。
如果您看到一个页面显示“您需要登录才能查看此内容”,那么这就是答案。如果网页要求您登录,网站 是否应该返回 404 是有争议的,但这应该与相关的 网站 一起使用。
你有几个选择。您可以在 Scrutiny 中打开身份验证和 cookie(并使用这些复选框右侧的按钮登录)。您可以设置规则,使 Scrutiny 不会检查这些链接,或者您可以更改社交 网站 上的*敏*感*词*,以便每个人都可以看到内容。
如果问题是 LinkedIn 链接给出状态 999,那么这是另一个问题,LinkedIn 正在检测自动请求并发送 999 代码以示抗议。避免这种情况的唯一方法(据我所知)是严格限制审查(参见上面的“页面超时/网络服务器停止响应”),但这会严重减慢扫描速度,所以最好设置一个规则来忽略 LinkedIn链接
Scrutiny 9 for Mac 软件要求
系统要求
需要 Mac OS 10.8 或更高版本,英特尔。支持 10.12 (Sierra) 和视网膜屏幕
10.6 个用户应该运行 6.8.版本 21
10.5 个用户应该运行 4.5.版本 5(运行 32 位)
需要飞利浦 Hue 灯泡及其“桥”(所有零件原包装)
为了让一切正常工作,Bridge 的固件必须是最新的(免费且易于操作)