百度原创内容Spark项目
优采云 发布时间: 2020-08-08 00:521. 搜索引擎为什么要重视原创性?
1.1馆藏泛滥
百度的一项调查显示,从传统媒体报纸到娱乐网站的花边新闻,从游戏指南到产品评论,甚至是大学图书馆,超过80%的新闻和信息都是由人工复制或通过机器采集的还请注意,所有站点都在进行机器采集. 可以说,高质量的原创内容是一块小米,周围是广阔的采集海洋. 通过搜索引擎在海中搜索小米既困难又具有挑战性.
1.2改善搜索用户体验
数字化降低了传播成本,工具化降低了采集成本,并且机器采集的行为使内容源混乱,并降低了内容质量. 在采集过程中,无意或有意出现了诸如内容不完整和不完整,格式混乱或出现其他垃圾等问题,这些问题严重影响了搜索结果和用户体验的质量. 搜索引擎重视原创性的根本原因是为了改善用户体验. 这里提到的原创性是高质量的原创内容.
1.3鼓励原创作者和文章
重新发布和采集,转移了高质量原创网站的访问量,并且不再具有原创作者的名字,这将直接影响高质量原创网站管理员和作者的收入. 从长远来看,它将影响原创创作者的积极性,不利于创新,也不利于新的高质量内容的生产. 鼓励高质量的原创性,鼓励创新,并为原创站点和作者提供合理的访问量,从而促进Internet内容的繁荣,应该是搜索引擎的一项重要任务.
第二,采集非常狡猾,很难识别原创图片
2.1采集伪装成原件并篡改关键信息
当前,大量网站在分批采集原创内容之后,会使用手动或机器方法篡改关键信息,例如作者,发布时间和来源,并假装为原创内容. 这种冒充原创物的东西需要由搜索引擎识别并进行相应调整.
2.2内容*敏*感*词*,制作伪原创
使用自动文章*敏*感*词*之类的工具来“创建”文章,然后安装醒目的标题,现在的成本非常低,而且必须是原创的. 但是,原创性必须具有社会共识的价值,并且不能将任何不合理的垃圾视为有价值和高质量的原创内容. 尽管内容是唯一的,但它没有社会共识的价值. 搜索引擎需要识别和打击这种伪原创信息.
2.3不同的网页,难以提取结构化信息
不同的站点具有相对较大的结构差异,并且html标签的含义和分布也不同. 因此,提取诸如标题,作者和时间之类的关键信息的难度也相对较大. 在目前的中国互联网规模下,这并不容易. 这部分将需要搜索引擎和网站管理员的配合才能更平稳地运行. 如果网站站长将更清晰的结构告知搜索引擎网页布局,将使搜索引擎能够有效地提取原创信息和相关信息.
3. 百度如何识别原创性?
3.1建立原创的项目团队来进行长期战斗
面对挑战,为了改善搜索引擎的用户体验,为了获得高质量的原创原创网站的利益,并促进中国互联网的发展,我们选择了大量人组成一个原创的项目团队: 技术,产品,运营,法律事务等等,这不是一个临时组织,不是一个两个月和两个月的项目,我们已经准备好进行旷日持久的战斗.
3.2原创识别“起源”算法
Internet上有数百亿个网页,从中发现原创内容可以说是大海捞针. 我们的原创识别系统是在百度大数据的云计算平台上开发的,可以快速实现所有中文Internet页面的重复聚合和链接点关系分析. 首先,根据内容的相似性汇总采集和原创性,并将相似的网页汇总在一起作为原创标识的候选集;其次,对于原创候选集,使用作者,发布时间,链接方向,用户评论,作者和网站的历史原创性,使用数百种因素(例如情况和转发轨迹)来识别和判断原创网页;最后,通过价值分析系统判断原创内容的价值,然后适当指导最终排名.
目前,通过我们的实验和真实的在线数据,“起源”算法取得了一些进展,并解决了新闻,信息等领域的大多数问题. 当然,在其他领域,还有更多原创问题等待“来源”解决,我们决心走.
3.3 Original Spark项目
我们一直致力于调整原创内容的识别和排序算法,但是在当前的Internet环境中,快速识别原创内容和解决原创问题确实面临着巨大的挑战. 计算数据的规模巨大,我们面临的采集方法是无穷无尽的. 网站构建方法和模板,复杂的内容提取和其他问题存在巨大差异. 这些因素将影响原创算法的识别,甚至导致判断错误. 这时,百度和网站管理员必须共同维护互联网的生态环境. 网站站长推荐原创内容,搜索引擎经过一定判断后会优先处理原创内容,共同促进生态的改善并鼓励原创性. 这是“原创Spark项目”,旨在快速解决当前面临的严重问题. 此外,网站站长对原创内容的推荐将应用于“起源”算法,这将有助于百度找到该算法的缺陷,进行持续改进,并使用更智能的识别算法自动识别原创内容.
目前,原创Spark项目也已取得初步成果. 在百度搜索结果中,一些关键原创新闻站点的原创内容的第一阶段已被赋予原创标签,作者显示等,并且还实现了排名和访问量. 合理促销.
最后,创意是生态问题,需要长期改进. 我们将继续投资并与网站管理员合作,以促进互联网生态的进步;创意是一个环境问题,需要每个人维护. 网站管理员应制作更多原创文章,并推荐更多原创作品,百度将继续努力改善排名算法,鼓励原创内容,并为原创作者和原创网站提供合理的排名和流量.