百度伪原创(从花了几个小时开发完上线到今天大概是一个半月超乎我想象)

优采云 发布时间: 2022-03-26 09:18

  百度伪原创(从花了几个小时开发完上线到今天大概是一个半月超乎我想象)

  从今天花了几个小时开发上线到现在花了大约一个半月的时间,以目前的结果来看,这超出了我的想象。

  最近两三天,百度开始频繁收录我每天转发文章,平均每天10篇左右,占1/2到1/2每日更新 文章 1/3。

  一般如果是新站的话,会有一开始给百度说的一到三个月的观察期,但是我很高兴我的二级域名的新站一个月后就可以正常了一半收录(而且实际上并没有说观察期可以是收录)。

  一个半月开发迭代的工作小总结。

  在线的

  一开始,我们选择了2、30个垂直行业的领先微信公众号,一共爬下历史文章约3万个。找个模板修改一下就可以上网了。此时,只有主页和 文章 详细信息。

  首页是文章的聚合页面,显示较新的文章,有利于爬虫爬取。

  文章详情页面完全复制了公众号的文章详情,甚至html都90%相似。

  日常维护工作是,当几个公众号有新推文章时,我会尽快赶上。我说的是早而不是时间,因为爬取需要人工干预(简单的点击手机),而且只有看到更新才能操作。

  当然,也少不了提交百度,提交网站地图。

  进入这个阶段大约三天后,百度在收录首页开始了长时间的观察期。

  添加频道页和文章详情页,以及锚文本链接

  一个简单的文章详情页无法支持一个站,所以我添加了两种类型的频道页。一种是提取每个公众号做一个页面,另一种是使用30000多篇文章文章的标题进行分词统计,选择权重高的关键词作为标签页(数量约为 100)。

  加上标签页,很自然的在文章的细节中使用正则匹配来制作大量的锚文本链接,这样整个网站就形成了一个错综复杂的网络,供爬虫使用到处漫游。

  不过频道页直到今天才收录,百度直到一周也没有收录任何内页。

  添加关联文章

  使用上一步中的标签添加算法,在每个文章下方放置一个类似的文章,类似于“你也喜欢”,这也为爬虫访问提供了便利。

  做这个迭代是在上线后大约 3 周进行的,在第 2 周开始时,百度在 收录文章(不是新的 文章)非常慢,大约一到两个天收录一篇文章,而此时标题直接复制到搜索框,前几页都看不到,证明给的权重很低。

  添加友好链接

  一方面,几个相关的子网站(不同的域名)被链接到这个主站点,另一方面,他们又去两个站长平台交换了几个友好的链接。

  之所以在这个时候做友情链接,是因为已经有10多个收录链接了,而且我可以改一些比纯新网站还多的友情链接(不是收录或者收录1))。.

  更改标题

  如果用微信公众号的文章标题,很容易判断是低质量转载,所以我做了一个工作:每次爬下文章,我都设置自定义标题,然后展示。

  更改标题是一个相对初级的“伪原创”。其实5、6年前,我还是会做一些工作,比如换段,改写首末段。但是,因为每天要在业余时间写一篇文章文章,做一些外包订单,对于你的项目,这些稍微费时、繁琐、收益低的操作,是不可能重新分配时间的。维持很长时间。

  虽然只是标题的替换,只是部分替换,但全站的分量却逐渐增加。百度每日收录已经逐渐达到3-5篇,非常可喜。

  除了上面提到的迭代,我还为网站做了很多网页性能优化,以提升用户体验。当然,它仍然是一个非常不完善的产品,需要不断的维护和优化。

  总结:应该说我对这个站的实际运行过程和结果非常满意(但我们不能把每个阶段的结果都看成是与迭代工作正相关的),相比于我个人维护的博客时间网站,效果好很多,后面我也会介绍那个站的实战经验和总结。

  经过一个半月的运营,我大概可以判断出这就是垂直行业的培育方式网站。

  虽然我是直接转载(改标题比较频繁),但是因为微信使用机器人禁止百度爬虫,所以没有真正的“原创”,梯队的高权重来源是同步更新的公众号其他自媒体,包括百度自己的百家号、搜狐号、今日头条号等,第二梯队也和我一样抢到了自己网站的信息网站,其中一些已经运行了很长时间,权重非常高,但也会出现爬取不及时的情况。

  所以我网站的目标就是力争全面提升收录的体量(万级),让每一个文章的长尾都能挤到第二page的页面,海量的收录下也保证能获得一定的流量。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线