采集的文章内容不能直接发布( 如何防止这些“无形的偷盗者”？（上） )

优采云发布时间: 2021-09-02 14:04

　　采集的文章内容不能直接发布(

如何防止这些“无形的偷盗者”？（上）

)

　　作者对资源窃取做了一定的介绍和分析，并分享了一些保护措施，希望对大家有所帮助。

　　近一两年，“内容为王”被越来越多的网民提及。就连BAT这样的大牌公司也开始在内容领域投入大量的人力财力和各种资源。内容是无穷无尽的。但在此期间，不少产品因风控意识薄弱、版权意识不足等问题，泄露了大量核心资源。今天我们就简单说说如何防范这些“隐形小偷”。（此为非技术类，技术大神仁慈）

　　小偷常用的盗窃方法

　　从文章开始，简单说一下我理解的恶意采集。所谓恶意采集，就是将其他网站的图片、文字、视频、音频等资源下载到自己的服务器，经过简单处理后放入自己的网站的过程。从这个定义可以看出，恶意采集是一种损害他人利益和自身利益的行为。但是，类似于采集百度蜘蛛和谷歌蜘蛛，可以带来流量，我们不把他归入恶意采集的范畴。

　　接下来，我们来看看采集器通常对采集我们的资源使用什么意思。

　　窃取下载链接

　　这种窃取方法很好理解。在很多下载网站（如百度图书馆、道客巴巴、21世纪教育网）中，当用户请求下载时，服务器通常会返回一个下载链接给浏览器进行下载。在这个过程中采集器会拦截链接，进行相应的分析，然后通过脚本执行自动下载。一杯茶，资源已经被采集带走了。

　　百度图书馆资源下载页面

　　窃取页面内容

　　为了用户体验，很多网站通常会直接在页面上加载他们想看到的部分数据供用户查看。这时候采集只需要解析页面的html结构，然后页面上的所有信息就可以采集down了。百度爬虫、快照、页面采集基本都是用这个原理。

　　起点中文网站

　　直接窃取网络数据库

　　这个比较高级，采集人一般会写一个爬虫，让爬虫自动发现网站上的查询接口，并模拟接口的数据标准，将相应的查询命令传递给接口，最后return 对数据进行排序处理，完成对应资源采集。

　　手动采集

　　Manual 采集字面理解为使用手动资源的采集。这种方法具有更灵活的适用范围。可以使用手动下载、复制资源采集等方式。这种方法看起来非常低效且低效。但是往往这种采集的方法让人很是麻烦。

　　PS：1个用户在A网站下载了一个word文件，简单编辑后上传到他的网站使用。这个过程无法通过技术手段进行追踪（整个过程是用户的真实操作）。这种现象就算被发现了，也不能肯定对方盗用了你自己的资源，因为你没有实际证据。这里大家可以想想百度文库的部分内容是怎么来的。

　　反采集method 策略

　　我上面简单介绍了一些采集器的采集方法。接下来说一下如何应对采集预防。

　　下载链接泄露的处理策略

　　上图展示了一个文档的下载过程。通过这个过程，我们发现如果采集器可以直接拿到步骤3的下载链接，就不需要经过步骤2的验证，直接下载资源了。这样我们就很清楚，为了防止这种采集方法，我们的重点是防止用户获取资源的下载链接。那么我们可以通过以下方式进行：

　　加密下载链接

　　在开发过程中，程序员基本都会对下载链接进行加密。加密就像一把钥匙。没有钥匙，锁是无法打开的。加密也是一样。如果您不知道解密方法，则无法破解您的下载链接。这样就实现了资源保护采集。

　　解密需要知道加密规则，所以在做加密的时候，最好不要使用第三方的加密规则，自己做是最安全的。还需要定期维护加密规则。

　　防止采集器拦截下载链接

　　有些采集人会在第3步和第4步之间截取下载的下载链接，这样他就不用经过第2步，就可以拿到我们返回的下载链接下载了。遇到这种情况，我们可以考虑在下载地址中加入用户认证。浏览器解析url时，验证当前用户是否为我们的下载用户，达到防止采集的目的。除非用户能够获得我们的账户信息，否则他们无法采集访问我们的内容。但是这个方法不支持断点下载。

　　告诉你一个秘密，将网站升级为https协议可以有效防止数据被拦截。

　　页面响应策略采集

　　上图展示了一个页面显示完成的过程。在这个过程中，我们可以发现采集器如果想要获取这个页面上的数据，他必须执行步骤1和3，因此在这两个步骤中我们需要防范采集。具体方法如下：

　　限制请求数量

　　我们可以通过限制关键数据的请求次数来限制采集器采集数据。这很好理解。当用户请求数据的次数超过多少次时，如果您再次请求，我们将不会向他提供相应的数据。这种方法简单粗暴，但非常有效。在限制请求数据时，需要注意以下几点：

　　在判断数据请求的数量时，必须通过用户名（用户ID）来判断，而不是IP地址。 IP地址是可以伪造的，一个请求可以换一个IP，所以如果根据IP地址来判断，基本上是无效的。保证账号注册难度。很多产品只能通过手机注册开户，即使使用第三方登录，也需要绑定对应的手机号。这大大增加了采集器获取账号的难度。评估用户每天浏览这些关键数据的次数。尽量不影响用户的正常使用。提供不能直接使用的数据

　　页面加载的所有内容，采集都可以直接使用，那么不能直接使用的数据怎么提供呢？我不会在这里转转。所谓不能直接使用的数据，是因为采集的资源有一定的版权，或者必须转换格式才能使用。这增加了采集的成本，并在一定程度上防止了数据擦除。

　　上图是一个题库产品的试题展示。他用一张带水印的图片替换了试题（答案分析）的关键部分。当采集发现要使用这些数据时，需要对图像内存进行处理，处理起来比较困难，成本也较高。还会被选中吗？

　　添加干扰数据

　　在关键数据的html代码中添加错误/混淆数据，利用爬虫采集data的规则将干扰（混淆）信息提供给采集爬虫，达到防止采集的目的。这个方法会影响网站的seo。

　　提供错误的数据

　　当用户请求数据超过一定频率时，再次请求时，可以将错误的数据传输给采集器。采集器收录收到错误的数据后，他会对整批采集数据产生怀疑，不敢使用这批资源。这个采集方式会对seo和用户造成一定的影响，慎用。

　　利用用户行为分析防止采集

　　随着技术的进步，对用户行为的分析也逐渐成熟。我们可以把这个技术放到我们的采集字段中，通过行为分析，我们可以判断用户是机器还是普通用户。如果是机器，我们可以根据情况弹出验证码进行验证，或者提供不正确的数据。

　　以上五种方法可以同时使用。比如（1）和（2）合并在一起，提供用户未登录时的解决方案（2），用户登录时提供体验）更好的方案（1）。更多组合，你可以自己组合。

　　处理页面采集时，需要考虑seo的问题，切忌向爬虫（百度、谷歌等）提供错误信息。所以如果你发现这些“益虫”在采集数据中，尽量提供给他们完整正确的数据。

　　处理手动采集的策略

　　如上所述，手动采集是最难防范的，但也不是没有办法处理，但是从根源上防范也是很麻烦的。下面我们介绍几种方式：

　　，页面内容防复制。防复制处理可以防止普通用户复制页面内容，但是对于懂一点技术的人来说，这个功能没用。 , 限制用户的每日下载量。 , 下载的文件收录产品的版权信息。视频中有logo；文件中的水印；不影响文件使用的标志被添加到文件本身。当我们的内容被上传到其他网站时，我们可以使用这些标志来保护我们的权利，并要求对方删除相关资源。使用人工检测，号码被屏蔽。应对网络数据库直接攻击的策略

　　程序猿知道怎么做，相信你的组员，让他解决！

　　总结

　　本文文章主要是为了激发灵感。希望通过我的分享，大家可以对defense采集有一个初步的了解，并将其应用到相应的产品规划中，增加产品的安全性。

　　作者：李英杰，二易教育高级产品经理，3年互联网产品设计经验，主要负责题库产品的规划和运营。

　　本文由@李英杰原创发表。每个人都是产品经理。未经许可禁止转载。

　　标题图片来自PEXELS，基于CC0协议

　　奖励作者，鼓励他努力！

　　欣赏

　　4 人获得奖励

0

2021-09-02

采集的文章内容不能直接发布

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

采集的文章内容不能直接发布( 如何防止这些“无形的偷盗者”？（上） )

0 个评论

发起人

AI时代内容工厂

采集的文章内容不能直接发布( 如何防止这些“无形的偷盗者”？（上） )

0 个评论

发起人

相关问题