百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页。实例参考:示例内容质量说明)
优采云 发布时间: 2021-11-10 19:02百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页。实例参考:示例内容质量说明)
采集知名小说网站的盗版小说页面。
示例参考:
示例内容质量描述
案例3.1.2-1 中国网易直接转载了中国新闻的一条新闻。
案例3.1.2-2“国庆放假安排”新闻网友上传中文图书馆
案例3.1.2-3 钟采集 启典小说网盗版小说网站
case 3.1.2-4 百度普通帖子贴吧
case 3.1.2-5 百度知道一个常见问答页面,目前还没有最佳答案
3、内容质量差:
百度搜索引擎认为主要内容的内容信息较少,或没有有效信息,信息无效和过期。
低容量的网页不会为用户提供任何实质性的帮助,应该减少他们的显示机会。同时,如果一个网站
此类网页占比过大,也会影响百度搜索引擎对该网站的评分,尤其是UGC网站、电子商务网站、
黄页网站要特别注意过期失效网页的管理。例如:
已下架的产品页面,或已过期的团购页面;
✓ 已过期的招聘和交易页面;
资源已过期,如视频被删除、软件下载后无法使用等。
示例参考:
示例内容质量描述
案例3.1.3-1 不良产品已下架,不能满足用户需求
case 3.1.3-2 不良团购结束,无法满足用户需求
case 3.1.3-3 不良交易信息已过期
case 3.1.3-4 不良招聘已过期
case 3.1.3-5 Bad下载页面资源失败
case 3.1.3-6 Bad video player page 视频无效,无法播放
case 3.1.3-7 可怜的论坛帖子
4、没有内容质量可言:
完全没有内容质量的网页,就是制作成本低,以次充好;其他地方的内容 采集 尚未更新
最少的编辑整理就是放到网上;挂木马等病毒;含有作弊行为或意图;完全无法满足用户的需求,
甚至带有欺骗性内容的网页。例如:
✓ 内容短小空虚,内容少,但不能支持页面的主要意图;
问答页面有问题没有答案,或者答案根本解决不了问题;
本站有搜索结果页面,但未提供相关信息
示例参考:
示例内容质量描述
case 3.1.4-1 一点质量都没有
内容短,内容少,无法支撑页面主体部分
意图
case 3.1.4-2 没有质量,没有找到相关内容的搜索结果页面
case 3.1.4-3 没素质可言 文章 有标题,没有内容
case 3.1.4-4 没有质量问答页面,只有问题没有回答
case 3.1.4-5 一点质量都没有,答案根本解决不了问题
案例3.1.4-6 没有质量可言文章有标题,但主要内容尚未发布
除了上述网页之外,欺骗用户和搜索引擎的网页在完全没有内容质量的集合中占有很高的比例。百度
搜索引擎对作弊网页的定义是:以不满足用户需求为目的,欺骗用户,通过不正当手段进行搜索
引擎因此有利可图的网页。目前,这部分网页在互联网上仍然是少数,但作弊网页的价值是负面的。
对用户的危害非常大,搜索引擎对此类网页采取坚决打击的态度。
示例参考:
示例内容质量描述
case 3.1.4-7 作弊页面没素质可言,特意加关键词
case 3.1.4-8 作弊页面没素质可言,特意加关键词
case 3.1.4-9 作弊页面没素质可言,文不对题
case 3.1.4-10 作弊页面没素质可言,文不对题
案例3.1.4-11 没有质量可言的作弊页面,假冒官网
2.2 衡量网页质量的维度——浏览体验
不同质量的网页浏览体验会有很大的差距。高质量的网页会给用户带来浏览体验。
它应该是积极的。用户希望看到干净且易于阅读的网页。混乱的布局和过多的广告会影响用户对网页的感知。
获取主要内容。在百度搜索引擎网页质量体系中,用户对网页主要内容的获取成本和浏览量
体验成反比,即获取成本越高,浏览体验越低。面对内容质量相近的网页,浏览体验更好的网页更多
获得更高的排名很容易,对于浏览体验较差的网页,百度搜索引擎会根据情况降低展示机会。
甚至拒绝了收录。
影响用户浏览体验质量的因素有很多。目前,百度搜索引擎主要影响内容布局和广告。
考虑网页。
内容布局
用户进入网页时首先看到的是内容布局。布局决定了用户对网页的第一印象。
确定用户获取内容的成本。
广告影响
百度搜索引擎明白网站的生存和发展需要资金支持,并支持在网页上投放合法广告。
花费。网页应以满足用户需求为主要目的,最好的状态是“主要内容和广告一起满足用户的需求”
需求,内容为主,广告为辅”,广告不应成为网页的主体。
让我们通过一个例子来感受一下百度的搜索引擎是如何对网页的浏览体验进行分类的。
基于此,您可以比较和测试您自己的网站浏览体验:
1、良好的浏览体验:
页面布局合理,用户获取主要内容的成本低。一般来说,它具有以下特点:
布局合理,布局美观,易于阅读和浏览;
用户需要的内容占据网页最重要的位置;
可以通过页面标签或页面布局清楚地区分哪些是广告;
广告不占据主要内容的位置,不妨碍用户获取主要内容;
示例参考:
示例浏览体验说明
case 3.2.1-1 OK
招聘、房产等。网站的首页也有很多广告,但都是关于招聘的。
关了,浏览体验还行。
case 3.2.1-2好文章页面,页面布局合理,无广告,布局好,结构合理
case 3.2.1-3 OK
游戏首页,布局精美,布局合理,无广告,浏览体验
优秀
2、糟糕的浏览体验:
页面布局和广告投放影响用户对主要内容的访问,增加用户获取信息的成本,利用
被家里人嫌弃。包括但不限于以下情况:
正文内容不换行、不拆分,用户阅读困难;
字体和背景颜色相似,难以区分内容;
页面布局不合理,页面首屏看不到有价值的主要内容;
✓ 广告掩盖了主要内容;或者一般分辨率下,首屏全是广告,主要内容不可见;
弹出广告过多;
太多影响阅读的浮动广告
点击链接时,意外弹出窗口出现;
广告和内容混淆,难以区分;
示例参考:
示例浏览体验说明
case 3.2.2-1 可怜的body内容不切分,布局差
case 3.2.2-2 第一屏不相关的广告,没有有价值的主要内容
case 3.2.2-3 不良广告与内容混淆,不易区分
2.3 维度衡量网页质量-可访问性
用户希望从搜索引擎快速获取他们需要的信息。百度搜索引擎为用户提供一次性
性直接访问所有信息网络结果。百度搜索引擎认为用户无法直接获取网页的主要内容
它是不友好的,它的显示概率会根据情况进行调整。
百度搜索引擎会从正常打开、权限限制、有效性三个方面来判断网页的可访问性。
正常访问的网页可以参与正常排序;权限受限的网页,通过其他维度查看
观察;对于无效的网页,其展示机制将被降低甚至从数据库中删除。
1、一个可以正常访问的网页
没有权限限制,您可以直接访问所有主要内容网页。
2、有权限限制的网页
此类网页有两种类型:打开权限和资源访问权限
1)打开权限
这意味着您需要登录权限才能打开网页。未经许可,您无法查看具体内容。普通用户是拿不到也拿不到的。
抓取成本高,百度搜索引擎会降低其出现的机会。不包括以登录为主要功能的网页。
2)获取资源
指获取网页的主要内容,如文档、软件、视频等,需要权限或需要安装插件才能获取完成
全部内容。这时候会出现三种情况:
网站 提供高质量、正版的内容,由于内容建设成本高,虽然需要查看全文或下载
权限或安装插件,但在用户的预期范围内,百度搜索引擎不认为权限行为对用户有害。
造成伤害并被视为正常的可访问页面。
对于一些非优质、非正版资源,被用户甚至机器转载采集,本身成本低,
内容不唯一,用户访问资源有限制——需要用户注册登录或付费查看,
百度搜索引擎会根据具体情况决定是否调整显示。
还有一些视频和下载资源页面。也许自己的资源质量还不错,但是需要安装很冷门的插件。
文件可以正常访问,比如需要安装“xx大片播放器”,百度搜索引擎会怀疑是恶意的
趋势。
示例参考:
可访问性描述示例
case 3.2-1 OK
CNKI上的论文可以付费下载,但是有版权,浏览器是
已检查
case 3.2-2 好优酷有新电影,需要付费观看,浏览体验不错。
3.2-3 的内容为复制,但需要登录才能查看更多
case 3.2-4 坏
入党申请表本身是转载的,网上到处都是,但是这个页面
面条仍然需要付费才能下载。
3、无效网页
它通常指具有死链接和主要资源故障的网页。百度搜索引擎认为这部分页面无法提供有价值的信息。
如果网站中此类页面过多,也会影响百度搜索引擎的收录和评分。建议站长对此类页面发表评论
进行相应设置,及时登录百度站长平台,使用死链提交工具通知百度搜索引擎。
无效网页包括但不限于:
404、403、503等网页;
程序代码错误网页;
打开后提示内容已删除,或因内容不存在而跳转到首页的页面;
删除内容的论坛帖子、删除的视频页面(主要出现在 UGC 网站上)
3 互联网网络资源现状
CNNIC于2014年初发布的《中国互联网络发展状况统计报告》称,截至2013年12月,
9月中国网页数据1500亿,较2012年同期增长22.2%。 2013年中国单网站
网页平均数和单个网页平均字节数均保持增长,说明中国互联网内容更加丰富:持平
网站的平均网页数达到4.6900万,比去年同期增长2.3%。
为保证搜索质量,提高用户满意度,百度搜索引擎每周都会进行一次网页质量抽样评估
估计。但是,从过去一年的评测数据中,我们发现优质网页的绝对数量非常少,几乎没有增长;
普通网页的比例在下降,相应地,低质量网页的比例显着增加。截至 2014 年 5 月,统计数据
数据显示,在百度网页搜索发现的海量网页中,优质网页仅占7.4%,劣质网页占21%。
剩下的普通网页为71.6%。
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
高质量
普通的
质量不高
通过一系列的筛选、识别、分析和赋能,百度搜索力求将更多优质网页呈现在
在用户面前,每天都有数以万计的劣质网站被点击,涉及数百万个网页,尽可能减少劣质网页的使用
用户造成的干扰。从2014年5月下图所示的网页展示分析数据来看,当前展示在用户面前的网页
在质量分布上,优质网页占比40%,劣质网页减少到11%——虽然这个变化已经很明显了,
但百度网搜还是希望能和广大站长一起,把劣质的比例降到更低。
互联网上的所有网页都在百度搜索中显示
优质网站7.4% 41%
普通网站 71.6% 49%
质量差的网页 21% 11%
上述低质量网页包括两部分:低质量网页和垃圾网页。低质量网页问题分布如下图所示:
广告体验不佳
短内容
受限制的
过期信息
低质量资源
低质量采集
低质量的搜索结果页面
论坛帖子
糟糕的排版
从上图我们可以看出,低质量网页中最严重的问题是广告太多,占据了网页的主要位置,以及
意外弹窗带来的浏览体验差,内容短,网页需要权限获取资源,过期信息质量也低
网页的重要组成部分。
除低质量网页外,没有质量垃圾页面的低质量网页问题分布如下图所示:
死链接对用户、网站和搜索引擎毫无意义,垃圾网页占比最大。其次是
对用户和搜索引擎有害的作弊页面,例如无效资源、未回答的问题、不相关的搜索结果页面等。
浪费用户时间的网页也是搜索引擎不想呈现给用户的网页。
死链接
作弊
无效资源
问题和没有答案
回答毫无价值
内容失效
4 百度搜索引擎给站长的建议
以上介绍了百度搜索引擎判断网页质量的标准。对应这些标准,站长实际上是在工作
有几个原则应该遵循:
设计网页时主要考虑的是用户,而不是搜索引擎
始终把用户体验放在首位
根据用户需求创建内容
多想想如何让你的网站独特价值
着眼长远,过度广告弊大于利
及时删除低质量内容
不要试图以任何方式欺骗用户和搜索引擎