什么建站系统支持文章采集(如何防住初级采集新手来说?(一)的方法)
优采云 发布时间: 2022-03-04 08:17什么建站系统支持文章采集(如何防住初级采集新手来说?(一)的方法)
现在的采集系统不止一个NB,站长采集制作的网站内容总是很快出现在另一个网站上,一个网站很容易被抄袭。有没有办法在不影响搜索引擎正常收入的情况下,解决网站成为采集的痛苦?答案是肯定的。
最常见的防止采集的方法:
1.每个文章的命名不应该有任何规则。比如你的文章是.htm,请在之前或者之后生成一个日期,比如:2.htm,前面是日期,对采集新手非常有效。
2.不要把所有的文章放在一个目录下,可以用日期生成不同的目录名。
3.不要一个模板全部用文章,模板尽量多,添加文章的时候可以选择用哪个模板,一般是采集的采集 程序是目标。他会在 采集 之前分析您的页面。如果你所有的页面布局都是不规则的,那我想他会放弃的。
以上三种方法可以防止初学者采集,但是对于高手来说是没用的。
以下三种方法使用限制采集人的IP或SESSION的方法来达到防止采集的目的。
方法一:(ASP代码):
int(AppealNum) 然后
response.write "网页特效提醒你:爬很累,休息一下!"
响应结束
万一
%>
第二种方法(ASP):
0那么
check_agent=true
退出
万一
下一个
检查=检查代理
结束功能
ifcheck(user_agent)=Falsethen
ifhttp_reffer=""orleft(http_reffer,len("http://"&server_name)+1)"http://"&server_name&"/"那么
%>
第三种方法:
使用 Persistence 将会话功能添加到静态页面
一般来说,只有服务器端的CGI程序(ASP、PHP、JSP)才有会话会话功能,用于保存用户在网站期间(会话)的活动数据信息,而对于大量的静态页面(HTML)例如,只能使用客户端的cookies来保存临时活动数据,但是cookies的操作是一个非常繁琐的过程,远没有session的操作那么简单。为此,本文向读者推荐一种DHTML“持久化技术”中的解决方案,使会话功能可以在静态页面中使用。
Microsoft Internet Explorer 5 及以后的版本都支持使用 Persistence 技术,它允许我们在当前会话期间将一些数据对象保存到客户端,减少对服务器的访问请求,充分发挥客户端计算机的数据处理。能力,从而从整体上提高页面显示效率。
持久化技术有以下可以调用的行为:
saveFavorite - 当页面添加到采集夹时保存页面状态和信息
saveHistory - 保存当前会话中的页面状态和信息
saveSnapshot - 当页面保存到磁盘时保存页面状态和信息
userData - 以 XML 格式保存当前会话的页面状态和信息
持久化技术打破了以往使用cookies和sessions的传统,继承了cookies的一些安全策略,同时也增加了存储和管理数据的能力。我们每页有 64KB 的用户数据存储容量,每个站点的总存储上限为 640KB。
Persistence 技术存储的数据格式符合 XML 标准,因此可以使用 DOM 技术中的 getAttribute 和 setAttribute 方法来访问数据。
以下是 Persistence 技术的典型应用。通过对Persistence存储数据的分析,静态页*敏*感*词*有验证功能。
实际判断过程如下:
1.共有三个对象:访问者V、导航页A、内容页C
2.访问者V只能通过导航页面A的链接看到内容页面C;
3.如果访问者V通过其他方式(如通过其他网站超链接、直接在IE地址栏输入URL等)访问内容页面C,内容页面C会自动提示版权信息,显示一个空白页面。
具体实施步骤:
·在“导航页”中添加STYLE来定义持久化类,并添加存储函数fnSave进行授权。
在“导航页面”的总和区域定义一个图层来识别Persistence对象
在“导航页”的超链接属性中添加语句调用函数fnSave:
接下来,将验证添加到内容页面。
·在“内容页”中添加STYLE来定义持久化类,并添加存储函数fnLoad判断有效性。
·修改“内容页面”区域如下:
***以上代码插入的页面必须在同一个文件夹下,否则会出错。
从上面的例子可以看出,通过持久化的使用,普通的静态内容页*敏*感*词*备了session功能,一般的不敏感信息可以通过session保存在客户端。
使用多个具有会话功能的静态页面可以完成许多复杂的任务,例如虚拟购物车、高级搜索引擎等。减少了数据交互量,大大减轻了服务器的负担。