总结:页面相似度详解与降低页面相似度的方法要点

优采云发布时间: 2022-10-21 08:16

　　页面相似性概念

　　什么是页面相似度？即两个网页的相似度，包括页面文字内容、栏目布局结构、代码等。

　　页面相似度高的危害

　　当两个页面的相似度超过80%（也有人认为是70%）时，很有可能搜索引擎会判断该页面是抄袭页面还是抄袭页面，这样就不会收录，甚至被降级或删除。.

　　影响页面相似度的常见因素

　　网站的样板模板什么是样板文本？样板文本是出现在每一页上的内容。很多网站都放置了横向导航，信息分类，然后在底部再添加一个导航；很多网站在底部都安排了很多*敏*感*词*、公司荣誉等；网站出现通用链接和友情链接的全站输出增加了示例文本，以及网站的分类，固定布局栏均为示例文本。2、采集内容或者伪原创很多SEO做网站优化，更新的内容是采集或者伪原创，那么这些内容就是重复内容的互联网。以产品中心渠道为例，很多产品站点以图片为主，而搜索引擎不会识别图片内容，那么我们可以适当的添加内容，比如产品规格、参数、性能、使用方法、注意事项等，大体思路是：增加原创的内容，稀释比例将相似内容与整个网站相结合是降低网站相似度的好方法。3、有些重复的页面标题网站首页标题、目录标题，甚至内页标题都一样。这种相似性会导致点击量下降和流量减少。出现重复标题一般是程序调用的问题。制定调用规则并进行修改。大致思路是：增加原创的内容，稀释相似内容占整个网站的比例，是降低网站相似度的好办法。3、有些重复的页面标题网站首页标题、目录标题，甚至内页标题都一样。这种相似性会导致点击量下降和流量减少。出现重复标题一般是程序调用的问题。制定调用规则并进行修改。大致思路是：增加原创的内容，稀释相似内容占整个网站的比例，是降低网站相似度的好办法。3、有些重复的页面标题网站首页标题、目录标题，甚至内页标题都一样。这种相似性会导致点击量下降和流量减少。出现重复标题一般是程序调用的问题。制定调用规则并进行修改。这种相似性会导致点击量下降和流量减少。出现重复标题一般是程序调用的问题。制定调用规则并进行修改。这种相似性会导致点击量下降和流量减少。出现重复标题一般是程序调用的问题。制定调用规则并进行修改。

　　减少页面相似度的方法

　　添加原创内容

　　原创的东西是独一无二的。添加网站原创内容可以有效降低网页的相似度。各大主流搜索引擎也喜欢这种网站。

　　2.插入图片或flash

　　你可以把相似的页面内容放到这些里面，即使是相似的，你也不用操心。

　　3. 使用 iframe

　　只需将类似内容嵌套到页面中即可。

　　4.将相同的部分放入JS

　　因为JS不被搜索引擎认为是有用的代码，你可以把类似的页面放在JS里，而对于百度来说，JS是不可见的。

　　5. 网站避免在内页上的相似之处

　　把网站的所有内页做成排版布局，或者调用统一的模板，这样网站的内页相似度很高，我们可以适当调整内页的位置版块，以及不同的内页标题和关键词，这样有助于搜索引擎抓取更多的页面。

　　页面相似度检测工具

　　国外页面相似度查询检测工具

　　国内页面相似度查询检测工具

　　用下面两页测试两个工具的区别

　　Similar Page Checker 查询结果相似度为 43%。

　　查询结果相似度为 39.93%。

　　从测试结果来看，差异不大，对测试两个网页的相似度有参考价值~！至于它们的核心算法，感兴趣的朋友不妨研究一下。

　　通用方法:php采集神器CURL使用方法详解

　　做过data采集的朋友，cURL一定不会陌生。虽然PHP中有一个file_get_contents函数可以获取远程链接的数据，但是它的可控性太差了。对于各种复杂的情况采集，file_get_contents 显得有些力不从心。因此，本文将向您介绍采集神器cURL的使用。

　　我先给大家补充一下file_get_contents函数是如何获取远程链接数据的。

　　这段代码会直接使用curl来显示文件的内容，但是问题来了，因为curl是php的扩展，有些主机为了安全会金庸curl，而宁外php在本地调试的时候也会关闭curl，所以一个会发生错误。所以这段代码不可取，所以云洛给他重写了

　　修改后的版本是对curl扩展做判断，看服务器是否开启了curl扩展。如果打开则直接显示该文件，如果未打开则显示提示文字。

　　虽然问题已经解决，但还有另一个问题。我只是显示一段文字，并没有用任何东西来做大事，那我为什么要写这么多代码呢？?

　　经过一番废话测试，发现file_get_contents获取远程文件内容并不比curl慢，而且在某些文件较少的情况下可能比curl扩展快很多，于是我又重写了代码

　　工具

　　火狐+萤火虫

　　“要想把工作做好，就必须先利好自己的工具。” 在分析案例之前，我们先学习一下如何使用神器 Firebug 来获取我们需要的信息。

　　使用F12打开Firebug，我们可以得到如图（1）所示的界面：

　　1.箭头图标是“元素选择”工具。单击一次将突出显示该图标。同时，鼠标在页面中的移动会同时选中HTML菜单中的相应内容。此时，点击内容即表示该内容被选中。元素，图标被突出显示并被取消。如图（2）所示：

　　Firebug 视图元素

　　2.控制台

　　JS中console.log系列函数的打印输出到这里。

　　3. HTML

　　HTML内容，注意这里看到的不一定是采集要解析的内容，采集时对内容的分析总是基于查看源码（Ctrl+U )，这里只是为了快速定位元素结构，然后在源码中选择一个专门的引用来定位对应的位置。

　　例如，如果您在 HTML 中看到一个标签

　　演示

　　, 但是你看源码时看到的可能是

　　演示

　　，如果按照前者对采集的内容进行正则匹配，则不会得到结果。

　　4.CSS

　　这是CSS文件内容

　　5. 脚本

　　这是Javascript文件内容

　　6.DOM

　　dom节点内容

　　7. 网络

　　每个请求链接的数据，这里是我们采集要重点分析的地方，它可以展示每个请求的参数、请求头、cookie数据等。在页面提交会被刷新的情况下，需要使用hold，这样刷新后页面请求内容就保留在控制台中，如图（3）所示：

　　此外，Firefox还有一个Tamper data扩展，也可以获取请求数据，必要时可以安装使用。

　　8. 饼干

　　Cookie 数据

　　在图（1）中，我们也可以看到下面有很多可选的小菜单项，其中keep是我们要注意的。选择它的时候，即使提交了表单并刷新了页面，下面内容区的数据仍然会被保留。这对于分析提交数据尤为关键。

　　总结

　　我们在分析采集的请求时，主要关心的是“网络”菜单中的请求数据。如有必要，使用“保持”查看刷新页面的请求数据。在发出请求之前，您可以使用“清除”清除以下内容。

　　案例分析

　　1.简单的采集

　　这里所说的简单采集是指单个页面GET请求的采集，简单到即使通过file_get_contents函数也可以轻松获取页面返回结果。

　　代码片段 file_get_contents

<p>

0

2022-10-21

伪原创相似度查询

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

总结:页面相似度详解与降低页面相似度的方法要点

0 个评论

发起人