百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页是怎样的?(图))
优采云 发布时间: 2022-04-19 21:23百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页是怎样的?(图))
采集名著网站的盗版小说页。
3、内容差:
百度搜索引擎认为主要内容信息量少,或无有效信息,信息无效过期,均属于内容质量较差的页面,对用户没有实质性帮助,应减少其展示的机会。同时,如果一个网站中此类网页的比例过大,也会影响百度搜索引擎对该网站的评分,尤其是UGC网站、电子商务网站、黄页网站特别注意过期和无效网页的管理。例如:
已下架的产品页面,或已过期的团购页面;
已过期的招聘和交易页面;
资源已过期,如视频已被删除、软件下载后无法使用等
4、没有内容质量可言:
没有内容质量的网页是那些制作成本低、质量低劣的网页;来自其他来源的内容 采集 被放到网上,没有经过最少的编辑和整理;*敏*感*词*木马等病毒;意图;完全不能满足用户的需求,甚至是带有欺骗性内容的网页。例如:
内容空洞短小,内容量少,但无法支撑页面的主要用途;
问答页面有问题没有答案,或者答案根本解决不了问题;
站点搜索结果页面,但没有给出相关信息
除了上述网页之外,欺骗用户和搜索引擎的网页在“无内容质量”组中占很大比例。百度搜索引擎将作弊网页定义为:以不满足用户需求为目的,以不正当手段欺骗用户和搜索引擎的网页。目前,这部分网页在互联网上仍然是少数,但作弊网页的价值是负面的,对用户的危害很大。对于这类网页,搜索引擎采取坚决打击的态度。
2.衡量网页质量的2个维度-浏览体验
不同质量的网页给用户带来的浏览体验会有很大差异。一个高质量的网页应该给用户一个积极的浏览体验。用户希望看到干净且易于阅读的网页。版面混乱、广告过多会影响用户对网页主要内容的访问。在百度搜索引擎网页质量体系中,用户获取网页主要内容的成本与浏览体验成反比,即获取成本越高,浏览体验越低。对于内容质量相近的网页,浏览体验较好的网页更有可能获得较高的排名,而对于浏览体验较差的网页,百度搜索引擎会视情况降低其展示概率甚至拒绝收录 .
影响用户浏览体验的因素有很多。目前百度搜索引擎主要从内容布局和广告影响两个方面考虑网页。
内容布局
用户进入网页时首先看到的是内容布局。布局决定了用户对网页的第一印象,也决定了用户获取内容的成本。
广告影响
百度搜索引擎明白网站的生存和发展需要资金支持,支持在网页上投放合法广告。网页的主要目的应该是满足用户的需求,最好的状态是“主内容和广告共同满足用户需求,内容为主,广告为辅”,广告不应成为网页的主体。
我们举个例子,看看百度搜索引擎是如何对网页的浏览体验进行分类的。站长可以根据这个对比测试自己网站的浏览体验:
1、浏览体验不错:
页面布局合理,用户获取主要内容的成本低。一般具有以下特点:
布局合理,布局美观,易于阅读和浏览;
用户需要的内容在网页中占据最重要的位置;
能够通过页面标签或页面布局清楚地区分哪些广告;
广告不占据主要内容的位置,不妨碍用户获取主要内容;
2、浏览体验差:
页面布局和广告投放影响用户对主要内容的获取,增加用户获取信息的成本,使用户反感。包括但不限于:
文字内容不换行,不分段,用户阅读困难;
字体和背景颜色相似,难以区分内容;
页面布局不合理,网页首屏看不到有价值的主要内容;
广告屏蔽了主要内容;或者在一般分辨率下,第一屏都是广告,看不到主要内容;
弹出式广告太多;
干扰阅读的浮动广告过多
点击链接时出现意外弹窗;
广告和内容混淆,难以区分;
2.网页质量的三个维度——可访问性
用户希望从搜索引擎中快速获得所需的信息。百度搜索引擎尽力为用户提供一次可以直接获取所有信息的网页结果。百度搜索引擎认为不能直接获取主要内容的网页对用户不友好,会根据情况调整其展示概率。
百度搜索引擎会从正常打开、权限限制、有效性三个方面来判断网页的可访问性。对于可以正常访问的页面,可以参与正常排序;对于有权限限制的页面,可以通过其他维度进行排名。观察;对于无效网页,展示机制将被降级甚至从数据库中删除。
1、可以正常访问的网页
不受权限限制,可直接访问所有主要内容页面。
2、受限网页
网页有两种类型:打开权限和资源访问权限
1)开放权限
指需要登录才能打开网页。未经许可,根本看不到具体内容。普通用户无法获取或获取成本非常高。百度搜索引擎会降低其展示概率。不包括以登录为主要功能的网页。
2)资源访问权限
指获取网页的主要内容,如文档、软件、视频等,需要权限或需要安装插件才能获取完整内容。分三种情况:
提供优质、正版内容网站,由于内容建设成本高,查看全文或下载虽然需要权限或安装插件,但在用户的预期之内,而百度搜索引擎则认为权限行为不正确。用户造成伤害并被视为正常可访问的页面。
对于一些非优质、非正版的资源,来自用户的转载甚至机器采集,本身成本低,内容不唯一,用户可以获取资源,有权限限制——用户需要注册登录或支付Check,百度搜索引擎会根据具体情况决定是否调整其显示。
还有一些视频和下载资源页面。也许自己的资源质量还不错,但是需要安装很冷门的插件才能正常访问。例如,如果他们要求安装“xx大片播放器”,百度搜索引擎就会怀疑他们有恶意倾向。 .
3、无效网页
通常是指带有死链接和无效主要资源的网页。百度搜索引擎认为这些页面无法提供有价值的信息。如果网站上此类页面过多,也会影响百度搜索引擎的收录和评分。建议站长对此类网页进行相应设置,及时登录百度站长平台,并使用死链接提交工具通知百度搜索引擎。
无效网页包括但不限于:
404、403、503等网页;
程序代码错误报告页面;
打开后提示内容被删除,或者因为内容不存在而跳转到首页的页面;
收录已删除内容、已删除视频页面的论坛帖子(主要在 UGC 网站上)
3 Internet Web资源现状
根据CNNIC 2014年初发布的《中国互联网发展统计报告》:截至2013年12月,中国网页数量为1500亿,同比增长22.2% 2012 年同期。2013 年,中国单个网站 的平均网页数和单个网页的平均字节数均保持增长,表明中国互联网上的内容是更丰富:网站平均页数达到4.69万,同比增长2.3%。
为保证搜索质量,提高用户满意度,百度搜索引擎每周都会对网页质量进行抽样评估。但从过去一年的评价数据中,我们发现优质网页的绝对数量非常少,几乎没有增加;普通网页的比例在下降,相应地,劣质网页的比例显着增加。截至2014年5月,统计显示,在百度网络搜索发现的海量网页中,只有7.4%是优质网页,21%是劣质网页,7个1. 6%。
百度搜索引擎网页质量百度站长平台网站死链接
百度搜索力求通过一系列筛选、识别、分析、赋能等工作,将更多优质网页呈现给用户,每天打击数以万计的劣质网页网站 ,涉及数百万网页级别,最大限度地减少劣质网页对用户的干扰。根据下图2014年5月网页呈现分析数据,当前呈现在用户面前的网页质量分布中,优质网页占比40%,劣质网页降为11%——虽然这个变化已经很明显了,但是百度搜索还是希望和广大站长一起努力,把劣质的比例降到一个更低的水平。
百度搜索引擎网页质量百度站长平台网站死链接
上述劣质网页包括劣质网页和垃圾网页。低质量网页的问题分布如下图所示:
百度搜索引擎网页质量百度站长平台网站死链接
从上图我们可以看出,目前低质量网页中最严重的问题是广告过多导致浏览体验不佳,占据网页主要位置,弹窗超出预期窗口,内容为空且短,网页获取资源需要权限,过时的信息也是低质量网页的重要组成部分。
除了低质量页面外,完全没有质量的垃圾页面问题分布如下图所示:
百度搜索引擎网页质量百度站长平台网站死链接
坏链接对用户、网站和搜索引擎没有意义,它们占垃圾邮件的比例最大。二是对用户和搜索引擎造成极大伤害的作弊网页。大量浪费用户时间的网页,如无效资源、未回答的问题、不相关的搜索结果页面,都不是搜索引擎想要呈现给用户的。
给站长的4条百度搜索引擎建议
以上描述了百度搜索引擎判断网页质量的标准。与这些标准相对应,站长在实际工作中应该遵循几个原则:
设计网页时要考虑用户,而不是搜索引擎
始终将用户体验放在首位
根据用户需求创建内容
考虑如何让你的网站独一无二的价值
寻找长期的、不分青红皂白的广告弊大于利
及时删除低质量内容
不要试图以任何方式欺骗用户和搜索引擎
下载《百度搜索引擎网页质量白皮书》完整版移至百度文库