百度搜索引擎优化白皮书(百度查找引擎对做弊网页的界说是(组图))
优采云 发布时间: 2022-02-04 17:13百度搜索引擎优化白皮书(百度查找引擎对做弊网页的界说是(组图))
• 采集著名小说的盗版页面网站。
例如参见:
例子
内容质量
阐明
案例 3.1.2-1
中间
网易直接转载了我国新闻网的一条消息。
案例 3.1.2-2
中间
网友在文库上传的“国庆放假组织”消息
案例 3.1.2-3
中间
起点小说网盗版小说合集
案例3.1.2-4
中间
百度一般贴贴吧
3、内容差:
百度搜索引擎认为主要内容信息量少,或无有用信息,信息无效过期,均属于内容质量差的页面,对用户没有实质性帮助,应减少它们的显示时间。同时,如果一个网站中此类页面的比例过大,也会影响百度搜索引擎对该网站的评分,尤其是UGC网站、电子商务网站、黄页网站特别注意过期和无效网页的处理。例如:
• 已下架的产品页面,或已过期的团购页面;
• 过期的招聘、买卖页面;
• 资源已过期,如视频已被删除、软件下载后无法使用等。
4、没有内容质量可言:
完全没有内容质量的网页是指制作成本低、偷工减料的网页;从外地采集的内容,未经极少的修改和整理,直接放到网上;*敏*感*词*木马等病毒;收录作弊行为或意图;完全不满足用户需求,甚至收录欺诈内容的页面。例如:
• 内容空而短,内容量少,但不能支持页面的主要用途;
• 问答页面有未回答的问题,或者答案根本没有解决问题;
• 网站上的搜索结果页面,但未提供相关信息
除了上述页面之外,欺骗用户和搜索引擎的页面在完全没有内容质量的集合中占很大比例。百度搜索引擎将作弊网页定义为:不以满足用户需求为目的,以不正当手段欺骗用户和搜索引擎,进而赚钱的网页。这部分网页在互联网上仍然是少数,但作弊网页的价值是负的,对用户的伤害非常大。对于这些类型的网页,搜索引擎对其产生了坚定的影响。
衡量网页质量的维度——阅读体验 不同质量的网页会给用户带来巨大的阅读体验差异。一个高质量的网页应该给用户一个积极的阅读体验。用户希望看到干净且易于阅读的网页。无序的布局和过多的广告会影响用户对网页主要内容的访问。在百度搜索引擎网页质量体系中,用户对网页主要内容的获取成本与阅读体验成反比,即获取成本越高,阅读体验越低。面对内容质量相近的网页,阅读体验较好的网页更容易获得较高的排名,而阅读体验较差的网页,
影响用户阅读体验的因素有很多。现在百度搜索引擎主要从内容布局和广告影响两方面考虑网页:
内容布局:用户进入网页时看到的就是内容布局,它决定了用户对网页的印象以及用户获取内容的成本。
广告影响力:百度搜索引擎明白网站的民生发展需要资金支持,支持在网页上投放合理的广告。网页的主要目的应该是满足用户需求。最好的情况是“主内容和广告一起满足用户的需求,内容为主,广告为辅”,广告不应该是网页的主体。
我们举个例子感受一下百度搜索引擎是如何对网页的浏览体验进行分类的,站长可以根据这个来查看自己网站的浏览体验:
1、良好的阅读体验:
页面布局合理,用户获取主要内容的成本低。一般具有以下特点:
• 版面合理,版面美观,通俗易懂;
• 用户需要的内容占据了网页最重要的部分;
• 可以清楚地区分哪些广告来自页面标签或页面布局区域;
• 广告不抢占主要内容的位置,不妨碍用户获取主要内容;
例如参见:
例子
阅读体验
阐明
案例 3.2.1-1
好的
网站首页也有很多招聘、房产等的广告,不过都是和招聘有关的,阅读体验还可以。
案例 3.2.1-2
好的
文章 页面,页面布局合理,没有广告,布局不错,结构合理
案例 3.2.1-3
好的
游戏首页,布局精美,布局合理,无广告,阅读体验极佳
2、阅读体验差:
页面布局和广告投放会影响用户对主要内容的获取,增加用户获取信息的成本,让用户感觉不好。包括但不**在以下情况下:
• 文本内容不换行、不分段,用户阅读困难;
• 难以区分字体和背景颜色附近的内容;
• 页面布局不合理,网页首屏看不到有价值的主要内容;
• 广告屏蔽主要内容;或许在普通分辨率下,第一屏全是广告,看不到主要内容;
• 弹出广告太多;
• 干扰观看的浮动广告过多
• 单击链接时出现意外的弹出窗口;
• 广告和内容混杂,难以区分;
衡量网页质量的维度 - 可访问性 用户希望从搜索引擎中快速获得所需的信息。百度搜索引擎为用户提供的网页结果尽可能一次直接获取所有信息。百度搜索引擎认为不能直接获取主要内容的网页对用户不友好,会根据情况调整其展示概率。
百度搜索引擎会从正常打开、权限限制、有用性三个方面来判断网页的可访问性。对于可以正常访问的页面,可以参与正常排序;对于有权限限制的页面,将通过其他维度进行调查。; 对于无效网页,其展示机制会被减少甚至从数据库中删除。
1、可以正常访问的网页
没有权限限制,可以直接访问网页的所有主要内容。
2、有权限限制的网页
此类网页分为开放权限和资源访问权限两种
1)打开权限:指打开网页所需的登录权限。未经许可,根本看不到详细内容,一般用户无法获取或获取成本非常高,百度搜索引擎会降低其展示概率。不包括以登录为主要功能的网页。
2)资源访问权限:指访问网页的主要内容,如文档、软件、视频等,需要权限或者需要安装插件才能获得完整的内容。目前会出现三种情况:
• 网站 提供高质量的正版内容,因为内容创作的成本非常高,虽然查看全文或下载时需要许可或安装插件,但在用户的预期之内,而百度搜索引擎并不认为权限行为会影响用户。损坏,被视为与正常可访问的页面相同。
• 对于一些非优质、非正版的资源,来自用户转载甚至机器采集,其自身成本低,内容不一样。用户对资源的访问也受到权限的限制——用户需要注册登录或者付费查看,百度搜索引擎会根据具体情况决定是否调整其显示。
• 还有一些视频和下载资源页面。或许自己的资源质量还不错,但需要安装很冷门的插件才能正常访问。比如你要求安装“xx大片播放器”,百度搜索引擎就会怀疑他们有恶意。
例如参见:
例子
可访问性
阐明
案例3.2-1
好的
CNKI上的一篇论文只能收费下载,但有版权,阅读体验不错
案例3.2-2
好的
优酷有新电影,需要付费观看,阅读体验不错。
案例3.2-3
中间
内容已复制,但需要登录才能查看更多内容
案例3.2-4
不同之处
入党申请表本身是转载的,网上到处都是,但是这个页面还是要收费才能下载。
3、无效网页
常指网页的死链接和主要资源故障。百度搜索引擎认为这部分网页无法提供有价值的信息。如果网站上此类网页过多,也会影响百度搜索引擎的进入和评分。建议站长相应设置此类网页,及时登录百度站长平台,使用死链接提交工具通知百度搜索引擎。
无效网页包括但不包括:
• 404、403、503 等网页;
• 程序代码错误报告页面;
• 打开后提示内容被删除,或因内容不存在而跳转到首页的页面;
• 收录已删除内容、已删除视频页面的论坛帖子(主要在 UGC 网站上)
互联网网络资源现状
CNNIC在2014年初发布的《我国互联网发展计算报告》中称,截至2013年12月,我国网页数据为1500亿,同比增长22.2% 2012年期间。2013年,单个网站的平均网页数和单个网页的平均字节数不断增加,表明我国互联网上的内容更加丰富: 网站的平均网页数达到4.690,000,比去年同期增长2.3%。
为保证搜索质量,提高用户满意度,百度搜索引擎每周都会对网页质量进行抽样评估。但从过去一年的评价数据中,我们发现优质网页的数量很少,几乎没有增加;一般网页的比例在下降,相应地,劣质网页的比例显着增加。截至2014年5月,计算数据显示,在百度搜索的海量网页中,只有7.4%是优质网页,21%是劣质网页,71.6 其他一般网页 %。
经过一系列筛选、识别、分析、赋能等操作,百度搜索力求为用户带来更多优质的网页。每天,它访问数以万计的劣质网站,并达到数百万个网页。可以减少劣质网页对用户造成的干扰。从下图2014年5月网页展示分析数据可以看出,在用户面前展示的网页质量分布中,优质网页占比40%,劣质网页占比下降到11%——虽然这个变化已经很明显了,但是百度搜索仍然希望与广大站长一起努力,把劣质的比例降低到更低的水平。
所有互联网页面
查找出现在百度上的页面
高级网站
7.4%
41%
一般网页
71.6%
49%
页面质量差
21%
11%
上述劣质网页包括两部分:劣质网页和废网页。低质量网页的问题分布如下图所示:
从上图我们可以看出,低质量网页最严重的问题是广告过多导致阅读体验不佳,占据网页主要位置并超出预期弹窗,内容为空,总之,网页需要权限才能获取资源和过期。信息也是低质量网页的重要组成部分。
除了页面质量低下,页面质量差、根本没有质量的问题也比较分散,如下图所示:
从上图我们可以看出,低质量网页最严重的问题是广告过多导致阅读体验不佳,占据网页主要位置并超出预期弹窗,内容为空,总之,网页需要权限才能获取资源和过期。信息也是低质量网页的重要组成部分。
除了页面质量低下,页面质量差、根本没有质量的问题也比较分散,如下图所示:
死链接对用户、网站和搜索引擎没有任何意义,浪费页面的比例是**。二是作弊网页,对用户和搜索引擎造成巨大损害。大量浪费用户时间的网页,如无效资源、未回答的问题和不相关的搜索结果页面,也不希望搜索引擎出现在用户面前。
百度搜索引擎给站长的建议
以上介绍了百度搜索引擎判断网页质量的标准。与这些标准相对应,网站管理员在实践中应遵循以下几条准则:
• 计划您的页面时要考虑到用户,而不是搜索引擎
• **将用户体验放在首位
• 根据用户需求创建内容
• 多思考如何让您的网站 共享共同价值
• 放眼长远,不加选择的广告弊大于利
• 及时删除低质量内容
• 不要试图以任何方式欺骗用户和搜索引擎