百度搜索引擎优化白皮书(百度查找引擎对做弊网页的界说是(组图))
优采云 发布时间: 2021-12-10 14:17百度搜索引擎优化白皮书(百度查找引擎对做弊网页的界说是(组图))
• 采集著名小说网站 的盗版小说页。
例子见:
例子
内容质量
阐明
案例3.1.2-1
中间
网易直接转载了我国新闻网的一条新闻。
案例3.1.2-2
中间
网友上传的“国庆假期组织”新闻在图书馆
案例3.1.2-3
中间
从起点小说网站采集盗版小说网站
案例3.1.2-4
中间
百度一般帖子贴吧
3、内容质量差:
百度搜索引擎认为主要内容的内容少,或者没有有用的信息,或者信息已经过时。这是由于内容质量差。对用户没有实质性的帮助,应该减少其显示的时间。同时,如果此类网页在网站中所占比例过大,也会影响百度搜索引擎对该网站的评分,尤其是UGC网站、电子商务网站@ >、黄页网站要特别注意过期无效网页的处理。例如:
• 已下架的产品页面,或已过期的团购页面;
• 已过期的招聘和交易页面;
• 资源已过期,如视频被删除、软件下载后无法使用等。
4、 没有内容质量可言:
根本没有内容质量的网页是那些制造成本低、偷工减料的网页;从其他地方采集的内容无需修改和整理即可在线放置;*敏*感*词*木马等病毒;收录作弊或意图;完全不满足用户的需求,甚至收录欺诈内容的网页。例如:
• 内容短,内容少,但不能支持页面的主要意图;
• 问答页面有问题且无答案,或答案完全无法处理问题;
• 在站点中查找结果页面,但未提供相关信息
除了上述网页之外,欺骗用户和搜索引擎的网页在完全没有内容质量的集合中占了很高的比例。百度搜索引擎对作弊网页的定义是:不是为了满足用户的需求,以不合理的手段欺骗用户和搜索引擎,然后从中牟利的网页。目前,这部分网页在互联网上的数量还很少,但作弊网页的价值是负的,对用户的伤害是非常大的。对于这样的网页,搜索引擎坚决震撼。
衡量网页质量的维度——阅读体验 不同质量的网页会给用户的阅读体验带来很大的差距。一个高质量的网页应该给用户一个积极的阅读体验。用户希望看到干净且易于阅读的网页。无序的布局和过多的广告会影响用户对网页主要内容的访问。在百度搜索引擎网页质量体系中,用户对网页主要内容的获取成本与阅读体验成反比,即获取成本越高,阅读体验越低。面对接近内容质量的网页,阅读体验较好的网页很容易获得更高的排名。对于阅读体验较差的网页,
影响用户阅读体验的因素有很多。现在百度搜索引擎主要从内容布局和广告的影响来考虑网页:
内容排版:用户进入网页时看到的是内容排版。排版决定了用户对网页的印象,也决定了用户获取内容的成本。
广告影响力:百度搜索引擎明白网站的民生发展需要资金支持,支持在网页上投放合理的广告。网页的主要目的应该是满足用户的需求。**情况是“主要内容和广告共同满足用户需求,内容为主,广告为补充”,广告不应成为网页的主体。
让我们通过一个例子来感受一下百度搜索引擎是如何对网页的浏览体验进行分类的。基于此,站长可以通过对比来检查自己网站的浏览体验:
1、良好的阅读体验:
页面布局合理,用户获取主要内容成本低。一般来说,它具有以下特点:
• 布局合理,布局美观,易读易读;
• 用户需要的内容占据网页最重要的位置;
• 可以通过非常清晰的页面标签或页面布局来区分哪些是广告;
• 广告不抢占主要内容,不妨碍用户获取主要内容;
例子见:
例子
阅读体验
阐明
案例3.2.1-1
好的
招聘、房产等。网站的首页也有很多广告,但都是和招聘有关的。阅读体验还可以。
案例3.2.1-2
好的
文章页面,页面布局合理,无广告,布局好,结构合理
案例3.2.1-3
好的
游戏首页,布局精美,布局合理,无广告,阅读体验极佳
2、阅读体验不佳:
页面布局和广告投放影响用户对主要内容的访问,增加用户获取信息的成本,让用户感觉不好。在以下情况下包括但不包括**:
• 正文内容不换行、不拆分,用户阅读困难;
• 字体附近的内容和景物的颜色难以区分;
• 页面布局不合理,页面首屏看不到有价值的主要内容;
• 广告掩盖了主要内容;或许在一般分辨率下,首屏都是广告,看不到主要内容;
• 弹出广告太多;
• 太多影响观看的浮动广告
• 单击链接时,会出现意外的弹出窗口;
• 广告和内容混杂,难以区分;
衡量网页质量的维度——可访问性。用户希望从搜索引擎中快速获得他们需要的信息。百度搜索引擎为用户提供尽可能一次直接获取所有信息的网页结果。百度搜索引擎认为不能直接获取主要内容的网页对用户不友好,会根据情况调整显示概率。
百度搜索引擎会从正常打开、权限限制、有用性三个方面来判断网页的可访问性。对于可以正常访问的网页,可以参与正常排名;对于有权限限制的网页,将通过其他维度进行调查。; 对于无效网页,其显示机制将被降低甚至从数据库中删除。
1、一个可以正常访问的网页
没有权限限制,您可以直接访问所有主要内容网页。
2、 有权限限制的网页
此类网页有两种类型:打开权限和资源访问权限
1) 开放访问权限:指打开网页所需的登录权限。没有权限是看不到详细内容的。一般用户无法获取或获取成本高。百度搜索引擎会降低其显示概率。不包括以登录为主要功能的网页。
2) 资源获取权限:指对网页主要内容的访问,如文档、软件、视频等,需要权限或设备插件才能获取完整内容。这时候会出现三种情况:
• 网站即提供优质、正版的内容,因为内容建设成本非常高,虽然全文或下载需要权限或安装插件,但在用户预期之内,百度搜索引擎做到了不认为许可行为对用户有害 损害被视为与正常可访问页面相同。
• 关于一些非优质非正版资源,来自用户转载甚至机器采集。它们成本低,内容不同。用户也有获取资源的权限。用户需注册登录或付费查看,百度搜索引擎会根据具体情况决定是否调整显示。
• 还有一些视频和下载资源页面。或许自己的资源质量还不错,但是需要安装非常冷门的插件才能正常访问。例如,当需要“xx大片播放器”时,百度搜索引擎会怀疑他们有恶意倾向。
例子见:
例子
无障碍
阐明
案例3.2-1
好的
CNKI上的论文可以付费下载,但是有版权,阅读体验不错
案例3.2-2
好的
优酷新电影,付费观看,阅读体验不错。
案例3.2-3
中间
内容已复制,但需要登录才能查看更多
案例3.2-4
区别
入党申请书本身就是转载的,网上到处都是,但是这个页面还是需要付费才能下载。
3、无效网页
它通常指具有死链接和主要资源故障的网页。百度搜索引擎认为这些页面无法提供有价值的信息。如果网站中此类页面过多,也会影响百度搜索引擎的收录和评分。建议站长相应设置此类网页,及时登录百度站长频道,并使用死链提交工具向百度搜索引擎报告。
无效网页收录但不收录 **:
• 404、403、503等网页;
• 程序代码错误网页;
• 打开后,提示内容被删除,或因内容不存在而跳转到首页的页面;
• 收录已删除内容的论坛帖子、已删除的视频页面(主要出现在 UGC 网站上)
Internet Web资源现状
据CNNIC 2014年初发布的《我国互联网发展测算报告》显示,截至2013年12月,我国网页数据为1500亿,同比增长22.2% 2012年。2013年,单个网站的平均网页数和单个网页的平均字节数持续增加,说明我国互联网内容更加丰富:甚至网站的网页也达到了4.690,000,比去年同期增长了2.3%。
为保证搜索质量,提高用户满意度,百度搜索引擎每周都会对网页质量进行抽样评估。但是,从过去一年的评测数据中,我们发现优质网页的数量非常少,几乎没有增加;普通网页的比例在下降,相应地,低质量网页的比例显着增加。截至2014年5月,计算数据显示,在百度网络搜索发现的海量网页中,优质网页仅占7.4%,劣质网页高达21%,其他一般网页占7 1.6%。
经过一系列的筛选、识别、分析、赋能等操作,百度网搜索力求为用户带来更多优质网页,每天影响数以万计的劣质网站,达到数百万网页。可以减少劣质网页给用户带来的困扰。从下图2014年5月的网页展示分析数据来看,现在展示在用户面前的网页质量为40%的优质网页和11%的劣质网页——虽然这个变化现在非常明显。但百度网搜索仍期待与广大站长合作,将质量差的比例降到更低。
Internet 上的所有网页
在百度上找到显示的页面
优质网页
7.4%
41%
一般页面
71.6%
49%
质量差的页面
21%
11%
上述劣质网页包括两部分:劣质网页和废网页。低质量网页的问题分散如下图:
从上图我们可以看出,低质量网页中最严重的问题是广告过多、占据网页首要位置、意外弹窗、短内容、需要权限的网页导致浏览体验不佳获取资源并过期。信息也是低质量网页的重要组成部分。
除低质量网页外,无质量废页问题展开如下图:
从上图我们可以看出,低质量网页中最严重的问题是广告过多、占据网页首要位置、意外弹窗、短内容、需要权限的网页导致浏览体验不佳获取资源并过期。信息也是低质量网页的重要组成部分。
除低质量网页外,无质量废页问题展开如下图:
死链接对用户、网站和搜索引擎没有意义,浪费网页的比例**。其次,对用户和搜索引擎造成极大损害的作弊网页,以及资源无效、未回答问题、搜索结果页面不相关的网页,也是搜索引擎不希望出现在用户面前的。
百度搜索引擎对站长的主张
以上介绍了百度搜索引擎对网页质量规格的确定。与这些规范相对应,站长在实践中应该遵循几个准则:
• 规划网页时,首先考虑的是用户,而不是搜索引擎
• **将用户体验放在首位
• 根据用户需求创建内容
• 多思考如何让你的网站具有共同的价值
• 着眼长远,过度广告弊大于利
• 及时删除低质量内容
• 不要试图以任何方式欺骗用户和搜索引擎