文章实时采集(再看看被搬的时间,还好搬文章的人用是博客园)
优采云 发布时间: 2021-12-09 15:01文章实时采集(再看看被搬的时间,还好搬文章的人用是博客园)
看看它被移动的时间。还好搬家文章的人用的是博客园而不是自己的程序,不然可以随意修改文章的发布时间:
先说一下那个文章的背景吧,那个文章就是刚出来工作(实习)的博主,实习结束前,他所见所闻所见所闻。写一点Laravel admin的小知识。
没想到,就这样被搬走了。其实博主并不反对搬文章,而是应该放个原文链接。这是对原作者的尊重。
其实采集这样背着文章的人还有很多。比如一个博主所在的QQ群是这样的:
由于某些搜索引擎的算法,采集文章的一些博客的权重会更高,而真正努力写好每篇博文的博客的权重都比收录高。但。
所以这会导致很多博客致力于采集文章。
就像现在的博主,百度搜索到Laravel-admin到第三页,我没有看到博主的原创文章,但是我可以看到去掉的文章,因为权重博客园比博主强很多,一个只有少量流量的博客。
不过百度不应该因为网站的权重太高而忽略了一些动人的文章的存在。
网上很大,其实很可能不止这个文章被搬走了,很多博客也被搬走了文章。
如果不注意,可能会导致一些原创博主不公开自己的文章。
虽然博主经常写一些关于如何自动采集的文章,但是博主并没有在任何系统中使用采集。
自动采集可以学习,也可以用于一些数据的统计。但是这种直接删除文章还是很烦的。并且没有原创地址的链接。
最后说一下通过技术手段避免被文章传输的方法。
如果是手动复制,然后贴在自己的博客上,基本就停不下来了。
如果使用自动采集(爬虫),可以限制访问频率等。当然,如果对方只是爬了一篇文章的文章,也是必然的,必然的。
最重要的是给每张图片加水印。推荐使用对象存储(好像现在市面上的云服务商都有这个,腾讯和阿里都有,七牛应该也有)。
它不会破坏原创图像,只是添加访问样式。
比如博主用阿里的:
当然,加水印也不是100%避免被采集,因为水印也可以通过技术手段去除。除非整个图像都是水印。