网站内容中使用字符串的方法有几种固有缺陷

优采云发布时间: 2021-07-10 04:19

　　专利名称：网站内容防采集系统及方法

　　技术领域：

　　本发明涉及互联网网站内容的采集复制技术。更具体地说，本发明涉及一种网站内容预防采集方法。

　　背景技术：

　　本文中的“采集”是指程序按照规定的规则获取其他网站数据的一种方式。网络采集器是一个用于对网页、论坛等采集进行批量处理的工具，将采集的内容直接存入数据库或发布到网站。它从目标网页中提取一些数据形成一个统一的本地数据库。比如网上新成立的网站，往往需要大量的数据来丰富其网站的内容。在这种情况下，部分网站管理者可能会利用网络采集器快速大量复制其他网站内容，并利用采集快速丰富自己的网站。但是对于采集网站，尤其是网站，主要内容是原创，这种操作会被采集网站占用大量网络资源，降低网络速度。和运行效率；另一方面，也侵犯了采集网站的知识产权，损害了采集网站的利益。为了限制网站内容被他人采集，反采集技术应运而生。目前常见的反采集技术是在网站每个网页的内容中使用混淆字符串。这种技术是通过在网页内容中随机添加一些字符串来实现的。这些字符串在普通用户浏览网页等正常情况下是不可见的。但是当网页内容为采集后，采集到达的网页上就会显示混淆后的字符串。这样采集收到的内容就混入了混淆字符串，不符合采集的要求，从而达到防止采集的目的。但是，这种使用混淆字符串来防止网站每页内容中出现采集的方法有几个固有的缺陷。首先，添加到网页内容中的随机字符串虽然对普通访问者不可见，但对网页内容进行索引的搜索引擎机器人是可见的。这导致在搜索引擎的搜索结果中显示 Web 内容时可能会添加随机字符串。同时，某个网站的内容中混杂了无意的随机字符串，可能导致网站在搜索引擎的搜索结果中排名靠后，不利于网站的推广以及客流量的增加。其次，如果采集zhe不关心他的网站的网页内容质量，添加到网页内容中的随机字符串起不到防止采集的作用，也不能从根本上解决问题那个网页内容是采集的问题。现有的采集防范技术通过添加混淆字符串的方式修改网页内容，破坏了网站对搜索引擎的友好性。同时也是一种被动的反采集措施。虽然添加了随机字符串，但采集器对采集的内容质量要求不高的情况下，仍然可以任意的采集。因此，需要一种在不修改网页内容的情况下防止网页内容被采集的方法。

　　发明内容

　　本发明通过识别网站访问者是普通用户还是采集器来防止网站的网页内容为采集。本发明提供了一种网站内容防采集系统，包括获取用户ID、IP地址、User-Agent和当前时间的获取单元；

　　查询单元用于查询用户在预定时间段内对网站页面的访问；比较单元用于将记录的用户在预定时间段内对网站页面的访问与设置的固定值进行比较，该单元被禁止。当用户在预定时间内访问网站页面的次数大于设定值时，禁止用户访问网站。优选地，网站内容防采集系统还包括存储单元，用于存储IP地址白名单和IP地址黑名单。判断单元，如果获取的用户IP地址属于IP地址白名单，则允许该用户访问网站；如果获取的用户IP地址属于IP地址黑名单，则禁止该用户访问网站。优选地，IP地址白名单包括搜索引擎的IP地址。本发明提供了一种网站内容防采集的方法，包括获取用户ID、IP地址、User-Agent和当前时间；统计用户在预定时间段内访问的网站页面，得到用户在预定时间段内的访问次数；将访问次数与设定值进行比较；如果访问次数大于设置值，则禁止用户访问网站。优选地，在获取用户IP地址的步骤之后，如果获取的用户IP地址属于IP地址白名单，则允许用户访问网站；如果获取的用户IP地址属于该IP地址的黑名单，将禁止该用户访问网站。优选地，该方法还包括将搜索引擎的IP地址放入IP地址白名单列表中。优选地，将被禁用户的IP地址放入IP地址黑名单。优选地，预定时间段为1-600秒，设定值的值为预定时间段内的秒数的1-50倍。由于采集是通过快速复制其他网站网页的内容来获取其他网站数据的方法，当采集器执行采集时，会快速密集地访问网站页面，访问频率最高可达每分钟 120 页或更多。相反，普通用户浏览网站时，一般情况下不会达到这么高的访问频率。通过这个差异，可以识别采集器的访问，从而限制采集器继续获取网站内容。本发明的网站内容预防采集方法通过添加混淆字符串的方式，利用与实现采集预防不同的原理，解决了现有采集预防技术的缺陷。本发明的网站内容防采集方法不对网站内容做任何修改，不影响搜索引擎的索引。同时，由于这种方法可以区分网站访问者是普通用户还是采集器，通过限制采集器对网站的访问，从根本上解决网站内容被大量采集的问题解决了。

　　下面将参考附图并结合实施例对本发明进行详细说明，其中图1示出了根据本发明优选实施例的系统框图；图2示出了根据本发明优选实施例的方法的流程图。图3示出了根据本发明另一优选实施例的方法的流程图。

　　具体实施例图1示出了根据本发明优选实施例的网站内容防采集系统100的结构框图。系统包括获取单元，用于获取用户的ID、IP地址、User-Agent和当前时间；查询单元，用于查询用户在预定时间段内对网站页面的访问情况；比较单元，用于将记录的用户在预定时间内对网站页面的访问与设定值进行比较；当用户在预定时间段内对网站页面的访问大于设定值时，使用禁止单元，此时用户对网站的访问被禁止。网站内容防采集系统的获取单元可以在每次收到访问请求时记录访问者的ID、IP地址、用户代理（ser-Agent）和访问时间。当访问者通过hternet Explorer等浏览器程序或采集器program访问网站时，访问者的浏览器程序或采集器program通常会向网站发送一个字符串来描述其身份。段字符串称为 her-Agent。用户使用的不同软件通常会发送不同的her-Agent。通过结合访问者的IP地址和her-Agent，网站可以识别和区分每个访问者。查询单元查询当前访问者在单位时间段内访问的网站页面数，即访问次数。比较单元将查询单元查询到的用户访问量与设置的访问量进行比较。如果单位时间段内的页面访问量超过设置的访问量，则可以确定访问者的访问为异常访问。

　　禁止单元可以禁止访问者对网站的异常访问。单位时间段的页面浏览量和单位时间段的设置值是两个变量，可以在网站program配置中单独修改。例如，单位时间段可以设置在10-600秒之间。单位时间段设置太短可能会导致普通用户的访问被误判为异常访问，而单位时间段设置太长可能导致采集器已采集大数据后网站才检测到当前访问是采集器的访问。由于采集器在执行采集时通常有每秒1到50页的频率，所以单位时间段内的页面浏览次数可以设置为所选单位时间段的1-秒。 50次。例如，单位时间段可以设置为60秒，单位时间段内的浏览量设置值为600页。由于采集器的采集速度受网络速度、网站响应速度等多种因素影响，具体的单位时间段和单位时间段内的页面浏览量应允许网站管理员设置根据实际情况。另外，本发明的网站内容防采集系统还可以包括：存储IP地址白名单和IP地址黑名单的存储单元，以及判断用户地址是否属于IP A的判断单元白色地址或黑色 IP 地址。如果是白色IP地址，则允许用户访问网站；如果属于IP黑地址，则禁止用户访问网站。由于搜索引擎在索引网站数据时也可能有更高的访问频率，为了防止搜索引擎的索引操作被误判为采集，本发明的网站内容防采集系统可以提供IP地址白名单功能，将常用搜索引擎的IP地址或IP地址段加入IP地址白名单。

　　来自这些IP地址的访问将绕过访问频率的判断，不受访问量设置值的限制。此外，本发明的网站内容防采集系统可以提供IP地址黑名单功能，将常见的采集器IP地址加入IP地址黑名单。从这些IP地址访问将绕过访问频率的判断，直接被禁止。图2示出了根据优选实施例的方法的流程图。本实施例的网站内容防采集方法包括以下步骤获取用户ID、IP地址、User-Agent和当前时间；统计用户在预定时间段内访问的网站页面，得到用户在预定时间段内的访问量；将访问次数与设定值进行比较；如果访问次数大于设置值，则禁止用户访问网站。图3示出了根据本发明另一优选实施例的方法的流程图。由于搜索引擎在索引网站数据时也可能有更高的访问频率，为了防止搜索引擎的索引操作被误判为采集，本发明的网站内容防采集系统可以提供IP 地址白名单功能将常用搜索引擎的IP 地址或IP 地址段加入IP 地址白名单。来自这些IP地址的访问会绕过访问频率的判断，不受访问设置值的限制。图3所示方法与图2所示方法步骤的区别在于，在获取用户IP地址的步骤之后，首先判断用户的IP地址是否属于IP地址白名单。 k14@的来访。

　　如果不属于，则判断用户的IP地址是否属于IP地址黑名单。如果属于，则禁止用户访问网站。如果没有，则如图2所示，继续查询用户对网站页面的访问次数。下面以PHP+MySQL开发环境为例来说明实现方法。对于其他语言如数据库，可以通过下面的SQL语句@NOT NULL DEFAULT"创建数据表CREATE TABLE "visitlist"(~icfINT(10)NOT NULL AUTO_INCREMENT PRIMARY KEY,VARCHAR(4@k21), "useragent" VARCHAR(255)NOT NULL DEFAULT", ~time~INT(10)NOT NULL DEFAULT' 0') ENGINE = MYISAM; 数据表中有4个字段：id, ip, useragent, and time分别代表记录ID、用户IP、用户User-Agent、访问时间，主程序代码说明获取用户IP、User-Agent信息，程序首先需要获取用户IP、her-Agent、当前时间信息，代码如下： $ip = $_SERVER['REM0TE_ADDR']; $useragent = $_SERVER[' HTTP_USER_AGENT']; $time = time(); //time()函数返回当前UNIX时间戳在几秒钟内，然后将上述数据存储到数据库中。

　　代码如下 mysql_query(" INSERT INTO visitlist(, ip,,, useragent and time,) values(' $ip', '$useragent',' $time')〃 ); 查询当前用户在单位时间段访问的页面数假设单位时间段为常数define ('DURATION', 60); $time_start = time()-DURATION ;//从当前时间段中减去设置的时间段，这是计数开始时间 $query = mysql_query ("SELECT COUNT (*) AS visit_count FROM visitlistffHERE"time"> $time_start AND—ip— = '{$this-> base-> ip}' AND, useragent, =' {$useragent}"'); $row = mysql_fetch_array($query); $visit_count = isset($row[ 'visit_count' ])? $row[ 'vist_count']: 0; 确定单位时间内访问的页面period 是否大于设定值，处理最终结果

　　假设单位时间段内访问的页面数是网站administrator定义的常量，define('MAX_PAGES', 300); if($visit_count> MAX_PAGES){exit('访问频率太高，禁止访问');//还可以将访问者的IP地址加入网站IP黑名单，可以更有效的禁止用户访问。} 上面应该理解为基于本发明的优选实施例，已经对技术方案进行了详细描述，应当理解，以上描述是示例性的而非限制性的，本领域普通技术人员可以对每一个描述的技术方案进行修改在阅读本发明说明书的基础上对实施例中的部分技术特征进行等效替换，这些修改或替换不导致相应技术方案的实质背离本发明的精神和范围本发明实施例的技术方案的pe。本发明的保护范围仅以所附权利要求为准。

　　声明

　　1.A 网站内容防采集系统，其特征在于，该系统包括获取用户ID、IP地址、User-Agent和当前时间的获取单元；查询单元，用于查询用户在预定时间段内对网站页面的访问情况；比较单元用于将记录的用户在预定时间段内对网站页面的访问与设定值进行比较，该单元被禁止，当用户在预定时间段内对网站页面的访问为大于设定值，禁止用户访问网站。

　　根据权利要求1所述的2.网站内容防采集系统，其特征在于，所述预定时间段为1-600秒，设置值的值为1-50倍。

　　如权利要求1所述的3.网站内容防采集系统，其特征在于，该系统还包括用于存储IP地址白名单和IP地址黑名单的存储单元；判断单元，如果获取的用户IP地址属于IP地址白名单，则允许该用户访问网站；如果获取的用户IP地址属于IP地址黑名单，则禁止该用户访问网站。

　　4.如权利要求3所述的网站内容防采集系统，其特征在于，IP地址白名单包括搜索引擎的IP地址。

　　5.A 网站内容防采集方法，其特征在于，该方法包括获取用户ID、IP地址、User-Agent和当前时间； k14@页面统计并获取预定时间段内的用户访问量；将访问与设定值进行比较；如果访问次数大于设置值，则禁止用户访问网站。

　　如权利要求5所述的6.网站内容防采集方法，其特征在于，所述预定时间段为1-600秒，设置值的值为1-50秒预定时间段次。

　　如权利要求5所述的7.网站内容防采集方法，其特征在于，在获取用户IP地址的步骤之后，如果获取的用户IP地址属于IP地址白名单，则允许用户访问网站。

　　如权利要求5所述的8.网站内容防采集方法，其特征在于，在获取用户IP地址的步骤之后，如果获取的用户IP地址属于IP地址黑名单，则用户访问禁止网站。

　　9.根据权利要求5所述的网站内容防采集方法，其特征在于，该方法还包括将搜索引擎的IP地址放入IP地址白名单。

　　10.根据权利要求5所述的网站内容防采集方法，其特征在于，将被禁用户的IP地址放入IP地址黑名单。

　　全文摘要

　　本发明提供了一种网站内容预防采集系统和方法。本发明的网站内容防采集系统包括获取单元，用于获取用户ID、IP地址、User-Agent和当前时间；比较单元用于将用户在预定时间段内访问网站页面的次数与设定值进行比较，该单元被禁止。当用户在预定时间段内，网站页面的访问量大于设定值时，禁止用户访问网站。本发明的方法可以在不修改网页内容的情况下防止网页内容被采集。

　　文件编号 G06F17/30GK102088477SQ2

　　出版日期：2011 年 6 月 8 日申请日期：2010 年 11 月 25 日优先权日期：2010 年 11 月 25 日

　　发明人孟凡斌、梅纯、潘海东申请人：

0

2021-07-10

网站内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容中使用字符串的方法有几种固有缺陷

0 个评论

发起人

AI时代内容工厂

网站内容中使用字符串的方法有几种固有缺陷

0 个评论

发起人

相关问题