百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页是怎样的?(图))
优采云 发布时间: 2021-09-15 09:10百度搜索引擎优化白皮书(采集知名小说网站的盗版小说页是怎样的?(图))
采集盗版小说著名小说第页网站
3、低含量质量:
百度搜索引擎认为,信息较少或没有有效信息、信息失效和过期的主要内容属于内容质量较差的网页,对用户没有实质性帮助,应该减少显示这些内容的机会。同时,如果此类网页在网站中所占比例过大,也会影响百度搜索引擎在网站上的评级,尤其是UGC网站、电商网站、黄页网站应特别注意过期和无效网页的管理。例如:
*敏*感*词*商品页面或过期团购页面
已过期的招聘和交易页面
资源已失效,如视频已被删除,软件下载后无法使用等
4、无内容质量:
无内容质量的网页是指制作成本低、制作质量差的网页;来自别处采集的内容在线放置,无需进行最少编辑;挂木马等病毒;含有欺骗或意图的;完全无法满足用户的需求,甚至网页内容带有欺骗性。例如:
内容是空的和短的,有少量的内容,但它不能支持页面的主要目的
问答页面上有问题和答案,或者答案根本解决不了问题
搜索结果页面位于站点中,但未提供相关信息
除了上述网页,欺骗用户和搜索引擎的网页在没有内容质量的采集中占很大比例。百度搜索引擎对作弊网页的定义是:不满足用户需求的网页,通过不正当手段欺骗用户和搜索引擎。目前,互联网上仍有一些网页,但作弊网页的价值是负面的,对用户造成了极大的危害。搜索引擎坚决打击此类网页
2.2衡量网页质量的维度——浏览体验
不同质量的网页在浏览体验上会有很大的差距。一个高质量的网页应该给用户一个积极的浏览体验。用户希望看到干净易读的网页。混乱的布局和过多的广告会影响用户访问网页的主要内容。在百度搜索引擎网页质量体系中,用户对网页主要内容的获取成本与浏览体验成反比,即获取成本越高,浏览体验越低。面对内容质量相似的网页,那些浏览体验好的网页更有可能获得更高的排名。对于浏览体验差的网页,百度搜索引擎会降低其呈现的概率,甚至会拒绝收录
影响用户浏览体验的因素很多。目前,百度搜索引擎主要从内容布局和广告两个方面考虑网页
内容布局
用户进入网页时首先看到的是内容布局。布局决定了用户对网页的第一印象以及获取内容的成本
广告影响
百度搜索引擎明白网站的生存和发展需要资金支持,并支持在网页上放置合法广告。网页的主要目的应该是满足用户的需求。最好的状态是“主内容与广告一起满足用户需求,以内容为主,广告为辅”,而不是让广告成为网页的主体
让我们举一个例子来看看百度搜索引擎如何对网页的浏览体验进行分类。网站管理员可以比较和测试自己网站的浏览体验:
1、良好的浏览体验:
页面布局合理,用户获取主要内容的成本低。一般来说,它具有以下特点:
布局合理,布局美观,易于阅读和浏览
用户需要的内容在网页中占据最重要的位置
能够通过页面标签或页面布局清楚地区分哪些广告
广告不占据主要内容的位置,也不妨碍用户获取主要内容
2、浏览体验差:
页面布局和广告放置影响用户对主要内容的访问,增加用户访问信息的成本,并使用户反感。包括但不限于以下情况:
文本内容不进行换行或分段,用户阅读困难
字体和背景颜色相似,很难区分内容
页面布局不合理,网页第一屏没有有价值的主要内容
广告涵盖主要内容;或者在一般分辨率下,第一屏是广告,看不到主要内容
弹出式广告太多
太多影响阅读的浮动广告
单击链接时,会出现一个意外的弹出窗口
广告和内容混淆,难以区分
2.3衡量网页质量的维度——可访问性
用户希望从搜索引擎中快速获取所需信息。百度搜索引擎为用户提供网络搜索结果,尽可能一次直接获取所有信息。百度搜索引擎认为,无法直接获取主要内容的网页对用户不友好,并会根据情况调整其呈现概率
百度搜索引擎将从正常打开、权限限制和有效性三个方面来判断网页的可访问性。对于可以正常访问的网页,可以参与正常排序;对于有权限限制的网页,通过其他维度进行观察;对于无效网页,它们的表示机制将减少,甚至从数据库中删除
1、正常访问的网页
它没有权限限制,可以直接访问所有主要内容的网页
2、有权限限制的网页
网页有两种类型:打开权限和资源访问权限
1)open权限
这意味着您需要登录权限才能打开网页。未经许可,您根本无法查看特定内容。普通用户无法获得,或者购买成本很高。百度搜索引擎将降低其显示概率。不包括以登录为主要功能的网页
2)资源访问
指获取网页的主要内容,如文档、软件、视频等,需要权限或插件才能获取完整内容。有三种情况:
对于提供高质量和正版内容的网站,由于内容构建成本高,尽管在查看全文或下载时需要安装许可或插件,但这是用户的期望,百度搜索引擎并不认为权限行为会对用户造成伤害,并给予与正常可访问页面相同的处理
对于一些非高质量和非正版资源,它们来自用户的重印,甚至机器采集,其成本低,内容独特。用户仍然有获取资源的权限限制-用户需要注册并登录或付费观看。百度搜索引擎将根据具体情况决定是否调整其显示
还有一些视频和下载资源页面。也许他们自己的资源质量并不差,但他们需要安装非常流行的插件才能正常访问它们。例如,如果需要安装“XX百视达播放器”,百度搜索引擎会怀疑它有恶意倾向
3、无效页面
经常指的是死链和主要资源的失效。百度搜索引擎认为这些网页不能提供有价值的信息。如果网站上有太多这样的页面,也会影响百度搜索引擎的收录和评级。建议站长相应设置此类网页,及时登录百度站长平台,使用死链提交工具通知百度搜索引擎
无效页面包括但不限于:
404、 403、503及其他网页
程序代码错误页
打开后,提示要删除的内容,或跳转到主页,因为该内容已不存在
删除内容和视频页面的论坛帖子(主要在UGC网站上)
3互联网网页资源现状
根据CNNIC 2014年初发布的《中国互联网发展统计报告》,截至2013年12月,中国的网页数据为1500亿,比2012年同期有所增长22.2%。2013年,中国网站的平均每页页数和平均每页字节数保持增长,这表明中国互联网上的内容更加丰富:每个网站的平均页面数达到4.69百万,比去年同期增加2.3%
为了保证搜索质量,提高用户满意度,百度搜索引擎将每周进行网页质量抽样测评。然而,从过去一年的评估数据来看,我们发现高质量网页的绝对数量非常少,几乎没有增加;普通网页的比例在下降,而劣质网页的比例在显著增加