资讯类网站如何填充内容(如何使用ScreamingFrogSEOSpider查找重复内容?(图) )
优采云 发布时间: 2021-09-28 10:24资讯类网站如何填充内容(如何使用ScreamingFrogSEOSpider查找重复内容?(图)
)
在整个 网站 中,应尽量减少重复内容,因为这将使搜索引擎难以确定要为查询排名的版本。
尽管“重复内容惩罚”在 SEO 中是一个神话,但非常相似的内容会导致抓取效率低下、降低 PageRank,并且是可以合并、删除或改进内容的标志。
值得记住的是,重复和相似的内容是网络的自然组成部分。对于搜索引擎来说,这通常不是问题,因为搜索引擎会设计标准化的 URL 并在适当的时候对其进行过滤。但是,在规模上,这可能会导致更多的问题。
防止重复内容允许您控制索引和排名的内容,而不是将其留给搜索引擎。您可以限制抓取预算的浪费,并合并索引和链接信号以帮助排名。
本教程将逐步指导您如何使用 Screaming Frog SEO Spider 查找完全重复的内容和几乎重复的内容,其中一些内容在 网站 上的页面之间匹配。
该工具(包括 SEO Spider)识别出的任何重复内容都需要根据上下文进行审查。观看我们的视频或继续阅读下面的指南。
首先,下载免费的 SEO Spider,它可以检索多达 500 个 URL。前 2 个步骤仅在您拥有许可证时可用。如果您是免费用户,请跳至指南中的位置 3。
1)通过“配置”>“内容”>“重复”启用“附近重复”
默认情况下,SEO Spider 会自动识别准确的重复页面。但是,要识别“附近重复”,必须启用此配置以允许它存储每个页面的内容。
SEO Spider 会识别相似度匹配度为 90% 的相似重复项,可以调整以查找相似度阈值较低的内容。
SEO Spider 也只会检查“可索引”页面中的重复项(完全重复和几乎重复)。
这意味着,如果您有两个相同的 URL,但一个被标准化为另一个(因此“不可索引”)URL,则不会报告该 URL - 除非禁用此选项。
如果您有兴趣查找抓取预算问题,请取消选中“仅检查可索引页面是否有重复项”选项,因为这有助于查找潜在的抓取浪费区域。
2)调整“内容区域”以“配置>内容>区域”进行分析
您可以配置用于近重复分析的内容。对于新的抓取,我们建议使用默认设置,并在您可以查看和考虑将来分析中使用的内容时对其进行优化。
SEO Spider 会自动排除导航元素和页脚元素以专注于主要内容。但是,并非每个 网站 都是使用这些 HTML5 元素构建的,因此您可以根据需要优化内容区域以进行分析。您可以选择在分析中“包括”或“排除”HTML 标记、类和 ID。
比如Screaming Frog网站的nav元素外就有一个移动菜单,默认收录在内容分析中。虽然这不是什么大问题,但在这种情况下,为了帮助专注于页面的正文,您可以在“排除类”框中输入其类名“mobile-menu__dropdown”。
这将从重复内容分析算法中排除菜单。稍后将对此进行更多讨论。
3)搜索网站
打开SEO Spider,在“要爬取的网址”框中输入或复制您要爬取的网站,然后单击“开始”。
等待爬取完成并达到100%,但您也可以实时查看一些详细信息。
4)在“内容”选项卡中检查重复项
“内容”选项卡有 2 个与重复内容相关的过滤器,“完全重复”和“几乎重复”。
在抓取过程中,只能实时查看“完整重复”。“几乎重复”要求在爬行结束时通过“爬行分析”后的计算,以便填充数据。
右侧的“概览”窗格显示消息“(需要爬网分析)”,用于需要填充数据然后爬网进行分析的过滤器。
5)单击“爬网分析>开始”以填充“附近重复项”过滤器
填充“附近重复”过滤器、“最近的相似匹配”和“否”。在“Duplicates”列附近,您只需要单击爬行末尾的按钮即可。
但是,如果您之前配置了“抓取分析”,则可能需要仔细检查“抓取分析>配置”下的“Near Duplicates”是否被选中。
您还可以取消选中其他需要爬网后分析的项目,以加快此步骤。
爬取分析完成后,“分析”进度条将变为100%,过滤器将不再显示“(需要爬取分析)”消息。
现在您可以查看几乎重复的过滤器和已填充的列。
6)查看“内容”选项卡和“精确”和“附近”重复过滤器
爬行分析后,使用“Near Duplicates”过滤器、“Last Similar Matches”和“No”。Near Duplicates 列将被填充。只有内容超过所选相似度阈值的 URL 才会收录数据,其他 URL 将保持空白。在这种情况下,只有两只尖叫青蛙网站。
搜索更大的网站(例如BBC)以查找更多内容。