网站内容采集系统( 本发明涉及一种网站内容防采集方法(图)涉及)

优采云发布时间: 2022-01-30 16:00

　　网站内容采集系统(

本发明涉及一种网站内容防采集方法(图)涉及)

　　网站内容预防采集系统和方法

　　技术领域

　　[0001] 本发明涉及互联网中网站内容的采集复制技术，更具体地，本发明涉及一种网站内容预防采集@的方法>。

　　背景技术

　　[0002] 本文中所提到的术语“采集”是指程序按照规定的规则定向获取其他网站数据的方式。网络采集器是一个用来批量处理网页、论坛等采集的工具，直接把采集的内容保存到数据库或者发布到网站，它提取一些数据从目标网页形成统一的本地数据库。比如互联网上新成立的网站，往往需要大量的数据来丰富其网站的内容。在这种情况下，一些网站管理者可能会利用网络采集器快速大量复制其他网站内容，而采集快速丰富自己的网站。但是，对于以采集网站的内容为主的网站，尤其是原创的内容，这种操作占用了采集网站@的内容>大量的网络资源，降低了网络的速度和效率；另一方面，也侵犯了采集网站的知识产权，损害了采集网站的利益。为了限制网站内容被他人采集使用，反采集技术应运而生。

　　[0003] 目前常见的反采集技术是在网站的每个网页的内容中使用混淆字符串。此技术通过向 Web 内容添加随机字符串来工作。这些字符串在普通用户浏览网页等正常情况下是不可见的。但是网页内容为采集后，混淆后的字符串会显示在网页采集中。这样采集接收到的内容就是混有混淆字符串的内容，不符合采集用户的要求，从而达到防止采集的目的。

　　[0004] 然而，这种在网站的每个网页内容中使用混淆字符串来实现反采集的方法存在一些固有缺陷。首先，添加到 Web 内容的随机字符串虽然对普通访问者不可见，但对索引 Web 内容的搜索引擎机器人来说是可见的。这导致当网页内容显示在搜索引擎的搜索结果中时，可能会添加随机字符串。同时，由于网站网页的内容混杂了无意义的随机字符串，可能导致网站在搜索引擎的搜索结果中排名较低，不利于推广网站并增加流量。其次，如果采集用户不太关心他们的网站网页内容的质量，添加到网页内容中的随机字符串将无法阻止采集，也无法从根本上解决问题。网页内容是有问题的采集。

　　[0005] 现有的反采集技术通过添加混淆字符串来修改网页内容，破坏了网站对搜索引擎的友好性。同时也是一种被动的预防采集措施。虽然添加了随机字符串，但如果采集所有者对采集的内容质量要求不高，采集仍然可以任意使用。采集。

　　[0006] 因此，需要一种在不修改网页内容的情况下防止网页内容为采集的方法。

　　发明内容

　　[0007] 本发明通过识别网站访问者是普通用户还是采集器来防止网站的网页内容是采集。

　　本发明提供一种网站内容预防采集系统，该系统包括：

　　[0009] 获取单元，用于获取用户的ID、IP地址、User-Agent和当前时间；[0010] 查询单元，用于查询用户在预定时间内对网站页面的访问情况；

　　比较单元用于将页面在预定时间段内的访问量与用户对该记录的设定值进行比较，

　　[0012] 禁止单元，当用户在预定时间段内对网站页面的访问大于设定值时，禁止用户对网站的访问。

　　优选地，该网站内容预防采集系统还包括：

　　存储单元，用于存储IP地址白名单和IP地址黑名单；和

　　判断单元，如果获取到的用户的IP地址属于IP地址白名单，则允许用户访问网站；如果获取的用户IP地址属于IP地址黑名单，则禁止用户访问网站。

　　优选地，所述IP地址白名单包括搜索引擎的IP地址。

　　本发明提供一种网站内容预防采集方法，该方法包括：

　　获取用户ID、IP地址、User-Agent和当前时间；

　　[0019]统计用户在预定时间段内访问的网站页面，得到预定时间段的用户访问量；

　　将此访问量与设置值进行比较；

　　[0021] 如果访问量大于设定值，则禁止用户访问网站。

　　优选地，在所述获取用户IP地址步骤之后，

　　如果获取到的用户的IP地址属于IP地址白名单，则允许该用户访问网站；

　　[0024] 如果获取的用户IP地址属于IP地址黑名单，则禁止用户访问网站。

　　[0025] 优选地，该方法还包括将搜索引擎的IP地址放入IP地址白名单中。

　　[0026] 优选地，将被禁止用户的IP地址放入IP地址黑名单中。

　　[0027] 优选地，预定时间段为1-600秒，设定值的取值为预定时间段内秒数的1-50倍。

　　[0028] 由于采集是一种通过快速复制其他网站网页的内容来获取其他网站数据的方法，所以当采集器执行采集时，访问网站页，例如，频率为每分钟 120 页或更多。相反，普通用户在浏览网站时，一般不会达到如此高的访问频率。这种差异允许识别采集器的访问权限，从而限制采集器继续访问网站内容。

　　根据本发明的网站内容预防采集方法，利用不同于实现采集添加混淆字符串的实现原理，解决了当前预防的存在。采集技术。缺陷。本发明的网站内容预防采集方法不对网站内容做任何修改，不会影响搜索引擎的索引。同时，由于该方法可以区分网站访问者是普通用户还是采集器，通过限制采集器对网站的访问，从根本上解决网站内容海量采集问题。

　　图纸说明

　　下面参照附图并结合实施例对本发明进行详细说明，其中，

　　附图说明图1示出了根据本发明优选实施例的系统框图；

　　图2为本发明较佳实施例的方法流程图。

　　图3示出了根据本发明另一优选实施例的方法的流程图。详细说明

　　[0034] 图。图1示出了根据本发明优选实施例的网站内容预防采集系统100的结构框图。该系统包括：获取单元，用于获取用户的ID、IP地址、User-Agent和当前时间；查询单元，用于查询用户在预定时间内对网站页面的访问量；比较单元，用于将记录的用户在预定时间段内对网站页面的记录访问次数与设定值进行比较。当访问次数大于设定值时，禁止用户访问网站。

　　[0035] 网站内容防护采集系统的获取单元在接收到每个访问请求时可以记录访问者的ID、IP地址、用户代理(user-Agent)和访问时间。当访问者通过浏览器程序（例如 hternet Explorer）或通过采集器程序访问网站时，访问者的浏览器程序或采集器程序通常会向网站发送一条消息，描述自己的身份字符串，这个字符串称为her-Agent。用户使用的不同软件通常会发送不同的her-Agent。通过将访问者的 IP 地址与 her-Agent 相结合，网站可以识别和区分每个访问者。查询单元查询当前访问者在单位时间段内访问的网站页面数，即访问次数。比较单元将查询单元查询到的用户访问量与设定的访问量进行比较。如果单位时间段内的页面访问量超过设定的访问量，则可以判断该访问者的访问异常。使用权。禁止单位可以禁止访问者对网站的非正常访问。

　　[0036] 单位时间段和单位时间段内页面访问量的设定值是可以在网站程序配置中分别修改的两个变量。例如，单位时间段可以设置在10到600秒之间。如果单位时间段设置得太短，普通用户的访问可能会被误判为异常访问。如果单位时间段设置过长，可能会导致采集器在设置的时间段内有采集大量数据。网站检测到当前访问是采集器的访问。由于采集器在执行采集时通常有1-50页/秒的频率，所以可以将单位时间段的浏览量值设置为所选单位时间的1-50倍的segment . 例如，单位时间段可以设置为60秒，单位时间段内的浏览量设定值可以设置为600页。由于采集器的采集的速度受网速、网站响应速度等多种因素影响，具体的单位时间段和单位时间段内的页面访问量应让网站管理员根据以实际情况为准。设置。

　　[0037] 此外，根据本发明的网站内容预防采集系统还可以包括：存储单元，用于存储IP地址白名单和IP地址黑名单，以及判断单元，其是用于判断用户地址是IP白地址还是IP黑地址。如果是IP白地址，则允许用户访问网站；如果是IP黑地址，则禁止用户访问网站。由于搜索引擎在对网站数据进行索引时也可能存在较高的访问频率，为了防止搜索引擎的索引操作被误判为采集，根据本发明，网站内容预防采集系统可以提供IP地址白名单功能，将常用搜索引擎的IP地址或IP地址段加入IP地址白名单。这些IP地址的访问会绕过访问频率的判断，不受访问量设定值的限制。进一步地，根据本发明的网站内容预防采集系统可以提供IP地址黑名单功能，将常见的采集器IP地址添加到IP地址黑名单中。这些IP地址的访问会绕过访问频率的判断，直接被禁止。根据本发明的系统可以提供IP地址黑名单功能，将普通的采集器IP地址添加到IP地址黑名单中。这些IP地址的访问会绕过访问频率的判断，直接被禁止。根据本发明的系统可以提供IP地址黑名单功能，将普通的采集器IP地址添加到IP地址黑名单中。这些IP地址的访问会绕过访问频率的判断，直接被禁止。

　　[0038] 图。图2示出了根据本发明优选实施例的方法的流程图。本实施例的网站内容防护采集方法包括以下步骤：获取用户的ID、IP地址、User-Agent和当前时间。@>页面统计获取用户在预定时间段内的访问量；将访问量与设定值进行比较；如果访问量大于设定值，则禁止用户访问网站。

　　[0039] 图。图3示出了根据本发明另一优选实施例的方法的流程图。由于搜索引擎在对网站数据进行索引时也可能存在较高的访问频率，为了防止搜索引擎的索引操作被误判为采集，根据本发明，网站内容防范采集系统可以提供IP地址白名单功能，将常用搜索引擎的IP地址或IP地址段添加到IP地址白名单中。这些IP地址的访问会绕过访问频率的判断，不受访问量设定值的限制。图3所示方法与图2所示方法步骤的不同之处在于，在所述获取用户IP地址的步骤之后，首先判断用户的IP地址是否属于IP地址白名单，如果属于，则允许用户<访问@网站。如果不是，则判断用户的IP地址是否属于IP地址黑名单。如果是这样，请禁用用户对网站的访问。如果没有，如图2，继续查询用户对网站页面的访问次数。

　　下面以PHP+MySQL的开发环境为例来说明实现方法，其他语言类似：

　　数据库：

　　可以通过以下 SQL 语句建立数据表：

　　创建表“访问列表”（

　　~icfINT(10) NOT NULL AUTO_INCREMENT 主键，

　　VARCHAR(40)NOT NULL DEFAULT",

　　"useragent" VARCHAR(255)NOT NULL DEFAULT",

　　~time~INT(10)NOT NULL DEFAULT'0'

　　) 引擎=MYISAM;

　　数据表中有4个字段：id、ip、useragent、time分别代表记录ID、用户IP、用户User-Agent、访问时间。

　　主程序代码说明：

　　获取用户IP、User-Agent信息：

　　程序首先会获取用户的IP、her-Agent、当前时间信息，代码如下：

　　[0053] $ip=$_SERVER['REMOTE_ADDR'];

　　[0054] $useragent=$_SERVER['HTTP_USER_AGENT'];

　　$时间=时间（）；//time() 函数以秒为单位返回当前的 UNIX 时间戳

　　[0056] 然后，将上述数据存储在数据库中。代码显示如下：

　　[0057] mysql_query("INSERT INTO visitlist(,ip,,,useragent,time,)值('$ip','$useragent','$time')");

　　查询当前用户在单位时间段内访问的页面数：

　　[0059] 假设单位时间段是管理员设置的常数网站：

　　[0060] 定义('DURATION',60);

　　$time_start=time()-DURATION;//当前时间减去设置的时间段，即为开始时间

　　[0062] $query = mysql_query (" SELECT COUNT (*) AS visit_count FROM visitlistffHERE "time" > $time_start AND-ip-='{$this->base->ip}' AND, useragent, =' {$useragent }"');

　　[0063] $row=mysql_fetch_array($query);

　　[0064] $visit_count = isset($row['visit_count']) ? $row['vist_count']: 0;

　　[0065] 判断单位时间段内访问的页面数是否大于设定值，并处理最终结果： [0066] 假设单位时间段内访问的页面数是< @网站管理员：

　　[0067] 定义('MAX_PAGES', 300);

　　如果（$visit_count>MAX_PAGES）{

　　[0069] exit('访问频率太高，禁止访问');//这里也可以将访问者的IP地址加入网站IP黑名单，可以更有效的禁止用户访问。

　　[0070] }

　　应当理解，以上通过本发明的优选实施例对本发明的技术方案进行了详细描述，应当理解，以上描述是示例性的，而非限制性的。本领域普通技术人员在阅读了本发明说明书的基础上，可以对各个实施例中描述的技术方案进行修改，或者对部分技术特征进行等同替换；并且这些修改或替换并没有做出相应的技术方案。其实质脱离了本发明实施例的技术方案的精神和范围。本发明的保护范围仅由所附权利要求限定。

0

2022-01-30

网站内容采集系统

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容采集系统( 本发明涉及一种网站内容防采集方法(图)涉及)

0 个评论

发起人

AI时代内容工厂

网站内容采集系统( 本发明涉及一种网站内容防采集方法(图)涉及)

0 个评论

发起人

相关问题