经验:一个纯采集站长的SEO、采集、运维总结
优采云 发布时间: 2020-10-15 12:04采集的SEO,采集纯站长的操作和维护摘要
我是一个纯粹的采集网站管理员。以下摘要,一些是关于SEO的,一些是关于采集以及操作和维护的,是非常基本的个人观点,仅供分享,请标识自己真正的知识来自实践。
原创好还是采集好?
原创当然很好,因为百度是这样说的,谁是裁判。
为什么我原创有很多文章,但仍然没有收录? 收录没有排名?
搜索引擎,其核心价值是为用户提供他/她最需要的结果。搜索引擎具有有关网民需求的统计信息。对于几乎没有或几乎没有网民需求的内容,即使您是原创,搜索引擎也可能会忽略您,因为它不想在无意义的内容上浪费资源。
收录对于网民需求较高的内容应该越来越多。但是,由于收录的数量更多,即使您是原创,也可能难以挤入排名。
如何确定搜索引擎统计信息中互联网用户的需求?
关键词。当每个人搜索关键词时,表明他/她对与单词相关的内容有需求。此外,使用搜索引擎的人通常会有疑问和答案以及搜索查询。当然,搜索引擎内部必须有一个非常大的分析系统才能准确定位这些需求。有关详细信息,请参见百度索引。例如,搜索的关键词是“手机”,很可能要购买手机或查看某个型号的价格,或者您可能只想下载精美的壁纸。但是,如果您想要墙纸,则会有一个更准确的关键词“手机墙纸”,它会以下拉框或相关搜索的形式显示。
原创很好,为什么要采集?
1.尽管原创不错,但只要方法合适,采集的效果不会比原创差很多,甚至比那些尚未掌握该方法的原创更好。方法。
2.的能量有限,原创难以保证大量的长期更新。如果您要求编辑器,则输入/输出比可能为负。
市场上有很多采集器,我应该使用哪一个?
每个采集器有其唯一性,所谓的存在是合理的。请根据需要选择。我的采集器由我自己开发,在开发过程中考虑了以下几个方面。其他采集器也可以用作参考:
1.直接提供了大量的分类的关键词,这些关键词是百度计数的并且具有网民需求(带有百度索引)的单词,或者这些单词的长尾单词,百度下拉框或相关搜索中。
2.直接按关键词 采集即可智能分析网页正文以进行爬网,而无需自己编写采集规则。
3.提取的文本已通过标准标签清除,所有段落均标记为
显示标签,并清除所有乱码。
4.根据采集的内容自动排列图片,并且图片必须与内容非常相关。以这种方式替换伪原创不会影响可读性,但也会使文章的图片和文本丰富,使其比原创提供的信息更丰富。
5.正文内容中的关键词自动加粗,还可以自定义要插入的关键词。但是没有所谓的“ 伪原创”功能会影响可读性,例如句子重排和段落重排。
6.可以直接使用关键词及其相关词的组合作为标题,或获取登录页面的标题。
7.可以执行微信文章 采集。
8.不需要触发或挂断。
9.集成了来自百度网站管理员平台的主动推送,以加快收录。
不同的网站程序,例如织梦,WordPress,dz,zblog,empirecms或其他程序,它们对SEO有什么影响?
理论上没有效果。因为搜索引擎不知道您是什么程序,或者可以通过某些规则识别它,所以程序本身不可能影响其判断。
那么什么会影响SEO?答案是模板。因为这些程序基本上具有模板机制,所以同一程序可以输出不同的页面,并且不同的程序也可以输出相同的页面。这是一个模板。确定模板后,将根据此框架输出每个页面,也就是说,整个html结构都已确定。这些html是搜索引擎应重点关注的内容,它必须从这些html中获取所需的信息。因此,一套好的模板非常重要。
模板设计中应注意哪些细节?
1.重量结构顺序。在整个页面的html中(请注意,它是html,而不是显示的布局),位置越高,权重越高。通过扩展,三个标签“ title”,keyword和deion,因为它们是最高级的,所以权重最高。第二个通常是导航,它基本上是最高的,并且重量也很高。再次是文章标题和文本。这是根据html排序的。
2.因为搜索引擎必须首先遵循W3C标准,所以W3C定义的某些标签最初是用来表示重要信息的,权重自然较高,例如,尤其是h1,它用来表示最重要的信息。通常,每页只能显示一个信息。权重估计等于标题。通常用于放置当前页面的标题。当然,要增加主页的重量,可以使用h1放置徽标或主页链接。另外,还有诸如em和strong的标签,用于指示重点。通常认为,强权重高于标签,这也是大胆的效果,但是我们认为,从SEO角度来看,体重没有增加。
3. css或js代码通常对搜索引擎毫无意义,请尝试使用单独的文件进行存储,或者在允许的情况下将其放在html的末尾
网站结构规划中应注意哪些问题?
1. URL设计。网址也可以收录关键词。例如,您的网站与计算机有关,并且您的URL可以收录“ PC”,因为在搜索引擎看来,它通常是“计算机”的同义词。 URL不能太长,级别不能超过4个级别。
2.列设计。列通常与导航相关。设计时应考虑网站的总体主题。用户可能感兴趣的内容。列名最好是网站的几个主关键词,这也便于导航权重。
3. 关键词布局。从理论上讲,每个内容页面都应具有其核心关键词,并且同一列下的文章应尽可能地分散在列关键词周围。一种简单而粗鲁的方法是直接使用列关键词中的长尾单词。
动态,伪静态,静态,这三个中哪一个更好?
这不能一概而论,建议使用伪静态或静态。两者之间的区别在于是否生成静态文件以及URL格式是否动态。生成静态文件本质上是为了加快访问速度并减少数据库查询,但是它将继续增加占用的空间。伪静态仅通过URL重写来修改URL,实际上,它仍然需要进行程序计算,每次查询数据库并输出页面。这对于提高访问速度完全无效。动态和伪静态之间的唯一区别是带有问号和参数的URL。
因此只需注意两点:网站打开速度是否足够快?您需要节省服务器空间吗?
不同的网站程序可能具有不同的数据库操作效率。一般来说,如果内容页面的数量少于10,000,则页面打开速度相对较快,并且数据量较大,达到50,000、100,000甚至更多,并且通常考虑静态化。
有哪些方法可以提高访问速度?
1.上面已经提到的静态化。
2.通常,许多网站模板具有随机调用文章或类似部分。实际上,随机性是数据库的沉重负担,应在模板中最大程度地减少随机性。 文章致电。如果不可避免,请考虑从数据库进行优化。带索引的字段排序通常比不带索引的字段排序要快得多。
3.将图片,js,css和其他不经常修改的文件放在专用静态服务器上。可以将多个js或css合并到一个文件中,以减少http连接的数量。
4.使用各种云加速产品。对于普通网站,免费的百度云加速或360云加速都可以。
文章,网站的静态打开数量更多,但是更新整个网站需要很长时间,我该怎么办?
我的方法是使用缓存机制。我只在这里提供一个想法。您可能需要自己开发。
网站设置为伪静态。当每个请求到达时,程序将检查是否存在相应的缓存的html文件。如果文件是几小时或几天前生成的,我们确定需要更新。此时,执行正常过程,程序将查询数据库,生成html,将其写入高速缓存文件,然后将其输出到客户端。
下次访问(例如1分钟后再次访问同一页面)到达时,请再次检查缓存文件时间。可以从文件是非常新的并且根本不需要更新的时间开始判断,然后直接读取文件的内容并将其输出到客户端。这样,可以自动生成每个页面,只有第一个访问者会感觉很慢,后续访问等效于静态访问,而且速度非常快。
如果它是独立服务器,则还可以考虑自动检测服务器负载。如果负载已经很高,则判断需要更新,并且暂时不更新,直接输出。
图片应该引用远程URL还是将其放在自己的服务器上?
这也有其优点和缺点。引用远程URL可以节省您自己的带宽,但是很可能由于对方的服务器速度慢,资源被删除或防盗链接被阻止而无法显示图片。如果您下载到自己的服务器上,则所有内容当然都在您自己的控制之下,但是图片将占用大量空间,并且可能会比生成的静态内容占用更多的空间。如果流量很大,那么图片将是带宽最密集的。
网站应如何优化内部链?
内部链是百度正式推荐的优化方法之一,因此必须做到这一点。通常的表现是某个关键词出现在文本中,并且向该关键词添加了链接,以指向恰好与此关键词相关的另一页。因此,诞生了一些所谓的优化技术,它们在文本中强行插入一些关键词和链接以执行类似于相互推送的操作。其他人,为了增加主页的权重,在各处放置网站名称并链接到主页,以为这可以增加目标页面的权重。但是这些可能会适得其反,因为搜索引擎将计算每个链接的点击率。如果您单击突出显示但很少出现的链接,则它们可能被判定为作弊行为。因此,请仅在文本中已经存在的关键词上做内部链接。
这些伪原创技术,例如段落重新排列,句子重新排列和同义词替换都很好吗?
不好。因为搜索引擎已经很聪明,所以它不再是简单的数据库搜索。它将执行自然语义分析(有关详细信息,请搜索“ NLP”)。语义分析困难的任何句子或段落都可以被判断为可读性差,因此我认为这些“ 伪原创”可能很聪明。
评论模块基本上未使用,我应该这样做吗?
是的。评论模块最麻烦的是它是垃圾邮件。通常,很少有真正会说话的访客,并且有很多垃圾评论。他们整日与市场营销软件作战。这是我已实施的解决方案,可能对收录有用(无根据,仅是猜测):
保留评论框,但禁用评论。所有注释均由我们自己的网站程序生成。如前所述,搜索引擎将执行自然语义分析。重要能力之一是情绪判断。搜索引擎将计算每个评论的情感价值,无论是正面还是负面,以及特定趋势是10%还是90%。如果评论的内容表达了积极的情感,则可以在文本中添加点,反之亦然。至于如何自动产生正面评论,让八个神仙跨海展示各自的能力。
这是社交网络发展后的必然趋势。这样,它反映了页面的用户体验。同样,也有分享,喜欢等。原理相似。
采用绿色萝卜算法后,是否可以使用外部链接?
有用。请参阅搜索引擎三定律的相关性定律。既然是法律,它就不会改变。经常引用谁的内容是权威。在主动推送出现之前,外部链接应被视为蜘蛛识别页面内容的第一个渠道。
外部链接必须锚定文本还是裸链接?
不。搜索引擎负有发现真正有价值的东西并排除那些不有价值的东西的重任。因此,您直接提交的链接可能没有收录,您只是在其他人的地方发送了纯文本URL,并被它发现,并且还计算了加分。
除了锚文本和裸链接之外,您还可以发送关键词 + URL形式的纯文本。这样,URL前面的关键词将自动与URL关联。
此外,尽管某些链接添加了nofollow属性,但在百度计算外部链接时仍会对其进行计算。
收录与索引之间是什么关系?
收录表示蜘蛛已爬网并进行了分析。该索引表示经过蜘蛛分析后,认为该内容具有一定的价值。仅输入索引的内容可能会出现在搜索结果中并显示给用户。换句话说,只有索引的内容才有机会带来流量。