干货内容:关于seo原创算法相关问题一些思路分享
优采云 发布时间: 2022-12-03 15:36干货内容:关于seo原创算法相关问题一些思路分享
360好搜最近也推出了“优采云”算法攻击采集,支持原创!在百度社区看到版主正在搜集百度原创相关问题的答案。正好我一直在跟踪研究原创问题,所以对相关问题发表一下自己的拙见!以下为问答合集:
1、对于原创文章,是否应该在搜索结果页添加原创标记:
我同意这一点,保护给了原创作者应有的肯定和尊重,他们会更有动力去创作原创。反而是原创得不到保护,采集横行霸道,简直就是在制造网络垃圾!
2. 什么样的 文章 是 原创?例如,引用其他文本的句子或段落是否仍然是 原创?
对于原创,百度有自己的判断机制,比如关键词分词后的相似度(这个可以参考TF-IDF和余弦相似度)。当然,百度的算法要复杂得多。我个人认为用一句话肯定是没有作用的,因为中国的语言和文化用的是名言警句。一定有很多引用。至于一句话,要看这句话在整个内容页中所占的比例!
3. 如何避免伪造原创 或机器生成文章?
这种回避,实在是很难回避。一些高端的可以模拟蜘蛛分词,可能读起来不流畅。正常人可以看成是垃圾,但是对于百度来说就很难识别了。至少现在用很多工具来生成伪原创的排名还是很不错的,最近医学新闻源里也有很多案例!说不定以后百度就有办法识别这个了!
4. 根据网站 原创 rate,整体权重应该增加还是减少?
这个应该加分,这个也算是比较支持站长了原创,至于加多少,看页面质量,只有原创,页面质量不够好,排名高,不是用户想看到的,也不是解决不了用户的问题!
5、对于网站,原创文章和转载高质量的文章哪个更重要?
我觉得原创文章理论上应该更重一些,但这跟用户有关。大家都知道,百度算法中用户点击占了很大一部分,一些原创文章在未知的小网站被大网站转载,用户肯定更喜欢点击在大网站上浏览!但是现在感觉百度直接给大网站而不考虑原创网站,所以百度应该做一些相应的机制,应该根据原创文章给原创文章一些维度>在应有的排名上标记原创,然后让用户选择原创文章和转载高质量的文章哪个更重要,而不是当前的作为只要它是大的 网站 转发 收录 并超过 原创文章 排名,还是得考虑用户!至少给原创文章一个被用户认可的机会吧!
6、如果你是百度工程师,如何识别原创?
①. 在识别原创方面,可以让原创网站体会原创文章在百度的优势,然后让他们知道如何使用百度对应的工具,比如之前的ping功能,当前的主动推送,或者以后对应的原创提交通道,让百度第一时间抓取,这样从抓取时间上就可以初步区分。
这只能是初步判断,因为互联网这么大,肯定有站长不会用工具提交,所以不保证原创会在第一时间被抓取。
②要结合其他算法,比如通过内容相似度算法聚合采集和原创,可以将相似的网页聚合在一起作为原创识别的候选集!
③原创候选集可用于统计文章来源、文章作者、发布时间。这些数据可以被篡改,但也可以作为参考维度。毕竟造假的是少数。
④作者和站点的历史原创情况,如果一个网站原创内容几乎没有内容,突然多了文章原创文章,这个值得怀疑,当然不能一票否决,也可以作为一个维度,因为这些网站大部分都是采集站!
⑤文章转贴情况(这里提醒网站最好留下文章出处链接或出处作者姓名),因为大网站比较受百度信任,所以他们转载也可以作为判断标准。当然,这也取决于大多数 网站 是否实时进行。转载上方留下的链接指向(这个需要培养用户和站长的转载习惯,比如转载请注明出处,多人转载下架),转载轨迹,文章评论情况,百度分享曲目等!这些也可以作为一个维度!
⑥ 以上数据都不能单独用来判断原创性别,还得结合多个维度来判断!个人认为培养站长知识,让站长知道原创的重要性,所有站长都会主动提交原创,并保留转载来源,形成良好的生态圈子,有利于互联网用户的发展都是必须的!
认识原创任重而道远,我们一起期待,一起成长!
干货内容:【SEO干货】做好这些百度不想收录都难
【周群超新媒体运营教材第3节SEO干货分享】
建议公司负责人转发给新媒体运营负责人或公司文员阅读。
1、时间问题:网站为新站点,百度对新站点的审核时间为1-3个月。在这三个月的时间里,我们网站自己的网站经常出现网站首页有时能找到,有时找不到。这是正常情况。我个人网站如果我一天不更新文章,第二天网站将没有任何信息。更新文章后,一般24小时后,可以重新找到主页。百度查的域名时间是域名的注册时间。如果您的域名是新注册的域名,您无法解决时间问题,只能等待。另一种方法是直接替换域名,找一些即将被删除的旧域名使用。
2、ROBOTS文件设置错误:ROBOTS文件一般设置为禁止搜索引擎搜索某些页面地址和文件目录。比如后台登录地址,网站模板存储文件等。一个网站ROBOTS文件只能有一个。在百度站长工具中,有一个ROBOTS文件可以检查设置是否正确。如果您对 ROBOTS 文件了解不多,建议查看一次。
3、网站服务器不稳定:百度蜘蛛在某个时候爬行,如果你的网站服务器不稳定,就会出现网站无法访问的情况。假设网站访问不了的时候,百度蜘蛛就是抓不到你的网站,那么抓取你的网站的频率就会降低,结果就是网站延迟看到收录。
4. 网站前台设计重复性强:大部分站长使用开源程序搭建网站,不知道如何设计网站模板,很多都是直接从网上下载的免费模板,简单修改上传即可使用。太多相同设计的网站不仅用户体验不好,搜索引擎也会认为是站群,即使你的网站内容和别人的网站不一样,增加检查时间是不可避免的。如果想网站长期发展,建议找一些用得少的模板或者直接花小钱请人做一个。
5、过度优化:常见的过度优化是一次发布的外链太多,文章采集。外链,文章发布讲究规律性,并且每天定时更新文章可以养成蜘蛛爬行的习惯。外链的质量不在于数量,不能一口成为大胖子。每天可以更新2-3个外链。
6. 网站原创内容质量太低:搜索引擎不再是以前的那个孩子了,它逐渐有了自己的思维。你是不是觉得现在网站收录越来越难了。网站的原创内容,在那个时代不是随便写几个字就能满足收录引擎胃口的。现在的原创文章也需要考虑用户体验。文章 最好是图形模式。文章 排版要美观,段落要清晰逼真才能满足用户的需求。建议减少每天的更新量文章,每天一个高质量的文章原创已经非常难得了。
7、网站提交过早:很多站长喜欢在网站建好后马上提交给搜索引擎。他们认为收录越早提交越早,其实这种想法是错误的。网站搭建完成后,每个栏目都应该填满优质内容再提交。这样可以减少搜索引擎调查网站的时间。网站搭建完成后,可以先使用百度的封站保护功能,一定数量的文章后提交.
8、网站内容细节处理不当:例如网站调用了大量各种JS文件,FLASH*敏*感*词*延迟了网站的加载时间,ALT属性图片的未设置或设置不合理等 JS 文件和FLASH*敏*感*词*这两个问题很容易理解,只要谨慎使用即可。图片的ALT属性很多资料都强调必须加,但是正确的图片ALT属性应该是对这张图片的描述,而不是的加法文章关键词。
9、网站外链质量不高:虽然百度的“露罗算法”已经解释了减少网站外链对排名的参考,但外链仍然很重要。高质量的外链可以增加网站的收录,也可以增加网站的权重。随着各大博客系统屏蔽外链,论坛审核越来越严,我们站长的外链之路也越来越艰难。.目前可操作的外链推荐豆瓣、天涯问答、知乎、网易博客、各大站长网站投稿、视频外链。其他的要么没有收录,要么就是收录被删除后,实际效果确实不大。
10、修改网站关键词,title标签:网站 上线后修改网站关键词,title标签是优化的大忌,不要以为搜索引擎还没有收录可以随意更改。没有收录不代表没有爬到你的网站,它也只是观察,如果你修改了网站关键词,title标签就会进行搜索引擎认为网站不稳定,至少会增加检查时间,频繁修改可能会出现收录网站不尽人意的情况。
11、UL路径问题:UL路径分为绝对路径和相对路径。网站优化建议使用绝对路径,简单理解就是每次访问一篇文章文章,在浏览器中出现的路径地址都是一样的。UL路径建议最多三层,太深不利于优化。什么是三层,点gzzeexin,点com/xxx/xxx.htm。这称为三层。
12、网站建设中有细节:网站细节包括网站地图、关于我们页面、301重定向、404页面设置。网站 地图,关于我们的页面比较简单一些.301 重定向需要使用.htaccess 文件。此文件必须位于 网站 的目录中。如果无法设置,请咨询空间提供商或查询相关信息。设置错误的后果非常严重。404页面设置不能直接重定向到首页,必须点击链接跳转。
13.网站存在死链接:网站死链接是指无法访问的网站页面地址。我们经常删除一些文件目录或者修改网站调试过程Drop一些文件地址,这些都会导致死链接。网站建议在提交给搜索引擎前进行死链接检测,处理后再提交。
●●●
▼
如果觉得【新媒体运营精要手册】第三期还不错,请点击“欣赏”鼓励一下,钱不超过1元,关键是对我辛勤工作的一种认可。