百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页是怎样的?(图))
优采云 发布时间: 2021-08-31 02:12百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页是怎样的?(图))
采集全球小说网站盗版小说页。
3、内容质量差:
百度搜索引擎认为主要内容的内容信息较少,或者没有有效信息,或者信息无效过期。它是一个内容质量较差的网页,对用户没有任何实质性的帮助,应该减少其呈现的机会。同时,如果此类网页在网站中的比例过大,也会影响百度搜索引擎对该网站的评分,尤其是UGC网站、电商网站、黄页网站一定要特别注意过期、无效网页的管理。例如:
已下架的产品页面,或已过期的团购页面;
已过期的招聘和交易页面;
资源已过期,如视频被删除、软件下载后无法使用等
4、没有内容质量可言:
完全没有内容质量的网页是那些制作成本低、以次充好的网页;来自采集 其他地方的内容无需编辑即可在线放置;*敏*感*词*木马等病毒;收录作弊或意图;完全不能满足用户需求的网页,甚至含有欺骗性内容。例如:
内容短小空虚,内容少,但不能支持页面的主要意图;
问答页面有问题没有答案,或者答案根本解决不了问题;
网站搜索结果页面,但没有给出相关信息
除了上述网页之外,欺骗用户和搜索引擎的网页在没有任何内容质量的情况下占据了很高的比例。百度搜索引擎对作弊网页的定义是:不满足用户需求的网页,通过不正当手段欺骗用户和搜索引擎牟利。目前,这部分网页在互联网上仍然是少数,但作弊网页的价值是负面的,对用户的危害很大。搜索引擎对此类网页持坚决态度。
2.2 衡量网页质量浏览体验的维度
不同质量的网页浏览体验会有很大差距。高质量网页的浏览体验应该是积极的。用户希望看到干净且易于阅读的网页。混乱的版式和过多的广告会影响用户对网页主要内容的访问。在百度搜索引擎网页质量体系中,用户对网页主要内容的获取成本与浏览体验成反比,即获取成本越高,浏览体验越低。面对内容质量相近的网页,浏览体验好的网页更有可能获得更高的排名。对于浏览体验较差的网页,百度搜索引擎会根据情况降低其呈现的概率,甚至拒绝收录。
影响用户浏览体验质量的因素有很多。目前,百度搜索引擎主要从内容布局和广告影响力两个方面考虑网页。
内容布局
用户在进入网页时首先看到的是内容布局。布局决定了用户对网页的第一印象,也决定了用户获取内容的成本。
广告影响
百度搜索引擎明白网站的生存和发展需要资金支持,并支持在网页上投放合法广告。网页应以满足用户需求为主要目的,最好的状态是“内容为主,广告满足用户需求,内容为主,广告为辅”,广告不应成为页面的主体。
我们通过一个例子来感受一下百度搜索引擎是如何对网页的浏览体验进行分类的,站长可以以此为基础对比测试自己网站的浏览体验:
1、良好的浏览体验:
页面布局合理,用户获取主要内容的成本低。一般具有以下特点:
布局合理,布局美观,便于阅读浏览;
用户需要的内容在页面上占据最重要的位置;
可以通过页面标签或页面布局清楚地区分哪些是广告;
广告不抢占主要内容的位置,不妨碍用户获取主要内容;
2、糟糕的浏览体验:
页面布局和广告投放影响用户对主要内容的访问,增加用户获取信息的成本,让用户反感。包括但不限于以下情况:
正文内容没有换行或拆分,用户阅读困难;
字体和背景颜色相似,难以区分内容;
页面布局不合理,网页首屏看不到有价值的主要内容;
广告掩盖了主要内容;或者一般分辨率下,首屏全是广告,主要内容不可见;
弹出广告太多;
悬浮广告太多影响阅读
点击链接时,意外弹出窗口;
广告和内容混淆,不易区分;
2.3 衡量网页质量-可访问性的维度
用户希望从搜索引擎快速获取他们需要的信息。百度搜索引擎为用户提供可以直接一次性获取所有信息的网页结果。百度搜索引擎认为不能直接获取主要内容的网页对用户不友好,会根据情况调整显示概率。
百度搜索引擎会从正常打开、权限限制、有效性三个方面判断网页的可访问性。对于可以正常访问的网页,可以参与正常排序;对于有权限限制的网页,可以通过其他维度查看。观察;对于无效网页,其展示机制将被降低甚至从数据库中删除。
1、一个可以正常访问的网页
无权限限制,可直接访问所有主要内容网页。
2、有权限限制的网页
网页有两种:打开权限和资源获取权限
1)打开权限
这意味着您需要登录权限才能打开网页。未经许可,您根本看不到具体内容。普通用户拿不到或成本高。百度搜索引擎将减少其出现的机会。不包括以登录为主要功能的网页。
2)资源获取权限
是指获取网页的主要内容,如文档、软件、视频等,需要权限或需要安装插件才能获取完整内容。这时候会出现三种情况:
网站提供优质、正版的内容,由于内容建设成本高,虽然查看全文或下载需要权限或插件安装,但在用户预期之内,百度搜索引擎不认为该权限行为会对用户造成危害,将其视为普通可访问页面。
对于一些非优质、非正版资源,被用户甚至机器采集转载,成本低,内容不唯一。用户对资源的访问也有限制——用户需要注册和登录或付费才能查看。百度搜索引擎会根据具体情况决定是否调整显示。
还有一些视频和下载资源页面。或许自己的资源质量还不错,但是需要安装一个非常冷门的插件才能正常访问,比如要求安装“xx大片播放器”,百度搜索引擎会怀疑它有恶意倾向。
3、failed 网页
它通常指具有死链接和无效主要资源的网页。百度搜索引擎认为这些页面无法提供有价值的信息。如果网站上此类页面过多,也会影响百度搜索引擎的收录和评分。建议站长设置此类网页,及时登录百度站长平台,并使用死链提交工具通知百度搜索引擎。
失败的页面包括但不限于:
404、403、503等网页;
程序代码错误网页;
打开后提示内容被删除,或者因为内容不存在而跳转到首页的页面;
删除内容的论坛帖子、删除的视频页面(主要出现在 UGC 网站上)
3 Internet 网络资源的现状
CNNIC 2014年初发布的《中国互联网发展状况统计报告》称:截至2013年12月,中国网页数据为1500亿,较2012年同期增长22.2%。 2013年中国单个网站的平均网页数和单个网页的平均字节数保持增长,表明中国互联网内容更加丰富:网站的平均网页数达到4.6900万,比去年同期增加了2.3%。
为了保证搜索质量,提高用户满意度,百度搜索引擎每周都会对网页质量进行抽样评估。但是,从过去一年的评测数据中,我们发现优质网页的绝对数量非常少,几乎没有增长;普通网页的比例在下降,相应地,低质量网页的比例显着增加。截至2014年5月,统计数据显示,在百度网络搜索发现的海量网页中,优质网页仅占7.4%,劣质网页占21%,其余普通网页占71.6%。