栏目

栏目

火车采集器发布模块制做教程

采集交流优采云 发表了文章 • 0 个评论 • 488 次浏览 • 2020-07-04 08:01 • 来自相关话题

  本次我们使用 DedeCMS5.7文章发布作为演示。我们首先下载安装好 gbk 版本的 DEDE,然后 下载数据包抓取工具 fiddler。下载完后成打开 fillder 和采集器的 Web 发布模块工具,然 后我们开始具体的开发过程。首先我们打开 dedecms 后台,开始登陆,登录成功后,我们可 以 据 看 到 fiddler 中 的 数 :从图中我们可以看见登陆过程中递交的数据。 我们按模块制做的流程, 先设置登陆地址后缀 和登陆地址来源页 (如果你使用外置浏览器登陆, 登录地址设置这一步就可以不用设置了) 。 这个对应关系如下:登录地址就是 POST 地址,来源页就是 Refer 那一行。因为发布模块通常是要针对一个系统 的,所以对好多用户来说,要设置的只是域名的不同,我们本次要除去域名部份和后台目录 部分的网址,将剩下的网址做为地址后缀填写进去。当其他用户使用我们的模块时,只要填 写域名地址带后台地址即可。填写的结果是:第二步, 我们复制 RAW 中的 POST 数据, 填写登陆 POST 数据, 注意是选中 Fiddler 的那一行。我们打 开 Web 发布模块编辑器,在“网站自动登入”那一页,点击“粘贴抓包获取的数据”。
  将我们刚刚复制的数据放进去。然后我们点击提取,会听到表单名和表单值早已手动填写好了。我们可以晓得,userid 是用户名,pwd 是密码,我们如今将这两个值替换成变量。我们点击 修改表单项,删除掉旧数据,单击用户名,结果如下我 们保存好, 再设置登陆成功标识码, 我们可以在 fiddler 返回的 html 代码中听到 “成功登 录, 正在转向管理管理主页”几个字样, 我们可以在登陆成功标识码中填写 “成功登陆“四 个字做为成功标示,当程序登入后发觉有这几个字样,就会觉得我们登陆成功。现在的程序 界面如下登 录过程我们最后再测试,现在我们设置内容发布参数。在 dedecms 中步入发布文章的页面, 简单的填写一下必要的数组,然后递交数据。在 fiddler 中见到如下结果,注意看圈住的几个地方用火车采集器发布信息时 如何获取网站栏目id,分别是 post 地址,以文本形式显示 RAW 代码,成功标识符。按登陆界面登陆地址和来源页的设置方法, 填写文章发布的地址和来源页, 我们点击 View In NotePad ,如图复制-----------------------------6962及以下的代码,到”内容发布参数 “的”粘贴抓包获取的数据“中去。
  点击提取后,我们再对表单值进行一些替换,如标签是 mytitle 替换成[标签:标题],内容 mycontent 替换成 [标签:内容]等。我们最后设置的结果如下: 我们如今要对发布时的页面进行剖析,获取表单名所对应的实际内容。经过剖析,我 们得悉 typeid 是栏目 id,我们在发布文章时可能要指定不同的栏目的,所以我们要设置一 个变量[分类 ID]来代表栏目 id,同时设置”获取栏目列表“。 栏目列表页我们要获取的格式 是栏目名称和栏目 id,我们在来源页或是其它有栏目信息的网页的源代码中提取栏目信息。 Dedecms 的来源页面就有栏目信息,源码如下:我们填写的格式如下 分类的填写暂时就这样,我们在稍等再测试。经过我们的剖析用火车采集器发布信息时 如何获取网站栏目id,pubdate 这个表单是设 置发布时间的, 现在我们是须要使用服务器上的时间来发布的, 我们须要通过”网页随机值 获取“来获取这个时间并在发布时使用。 这个时间我们是可以在填写文章内容的页面上得到 的,我们先添加网页随机值注意,因为时 间每次都是不一样的,所以我们不要选”每次恳求都使用第一次获取的随机值“添加完 的结果是这儿的网 页随机值名为网页随机值1,我们同时要更改文章发表参数中的值。
  如下图。保存好后,我们如今 保存一下 Web 发布模块,在 Web 发布配置管理器中测试我们刚刚做的模块。我们打开 WebPostManager.exe 。新建一个发布配置,注意网站根地址是域名加后台地址,我们前面 有提及过。网站编码是 gbk.如果我们使用的是 utf8的 dedecms,要选 utf-8。 我们点击登陆,提示登陆成功。这 说明我们的登陆部份是正确的, 为了再度确认并获取登陆失败的标示, 我们改一下用户名或 密码,获取一下所有的错误信息,并将其填写到模块中去。这是更改 后的模块如今我们测试 一下获取列表,点击”获取列表“,可以看见是成功了。我们选一个栏 目,点击”测试配置“打开网站后台,结果正确。到此,该模块已基本完成,后边的工作是做更多细节的更改。模块完成后,我们就可以用于 实际发布过程中了。我们保存一下设置好的发布配置,就可以在其它的项目,如列车采集器 中使用该发布配置了。火车采集器中的发布请查看 五.火车采集器采集实例中的发布部份。 查看全部

  本次我们使用 DedeCMS5.7文章发布作为演示。我们首先下载安装好 gbk 版本的 DEDE,然后 下载数据包抓取工具 fiddler。下载完后成打开 fillder 和采集器的 Web 发布模块工具,然 后我们开始具体的开发过程。首先我们打开 dedecms 后台,开始登陆,登录成功后,我们可 以 据 看 到 fiddler 中 的 数 :从图中我们可以看见登陆过程中递交的数据。 我们按模块制做的流程, 先设置登陆地址后缀 和登陆地址来源页 (如果你使用外置浏览器登陆, 登录地址设置这一步就可以不用设置了) 。 这个对应关系如下:登录地址就是 POST 地址,来源页就是 Refer 那一行。因为发布模块通常是要针对一个系统 的,所以对好多用户来说,要设置的只是域名的不同,我们本次要除去域名部份和后台目录 部分的网址,将剩下的网址做为地址后缀填写进去。当其他用户使用我们的模块时,只要填 写域名地址带后台地址即可。填写的结果是:第二步, 我们复制 RAW 中的 POST 数据, 填写登陆 POST 数据, 注意是选中 Fiddler 的那一行。我们打 开 Web 发布模块编辑器,在“网站自动登入”那一页,点击“粘贴抓包获取的数据”。
  将我们刚刚复制的数据放进去。然后我们点击提取,会听到表单名和表单值早已手动填写好了。我们可以晓得,userid 是用户名,pwd 是密码,我们如今将这两个值替换成变量。我们点击 修改表单项,删除掉旧数据,单击用户名,结果如下我 们保存好, 再设置登陆成功标识码, 我们可以在 fiddler 返回的 html 代码中听到 “成功登 录, 正在转向管理管理主页”几个字样, 我们可以在登陆成功标识码中填写 “成功登陆“四 个字做为成功标示,当程序登入后发觉有这几个字样,就会觉得我们登陆成功。现在的程序 界面如下登 录过程我们最后再测试,现在我们设置内容发布参数。在 dedecms 中步入发布文章的页面, 简单的填写一下必要的数组,然后递交数据。在 fiddler 中见到如下结果,注意看圈住的几个地方用火车采集器发布信息时 如何获取网站栏目id,分别是 post 地址,以文本形式显示 RAW 代码,成功标识符。按登陆界面登陆地址和来源页的设置方法, 填写文章发布的地址和来源页, 我们点击 View In NotePad ,如图复制-----------------------------6962及以下的代码,到”内容发布参数 “的”粘贴抓包获取的数据“中去。
  点击提取后,我们再对表单值进行一些替换,如标签是 mytitle 替换成[标签:标题],内容 mycontent 替换成 [标签:内容]等。我们最后设置的结果如下: 我们如今要对发布时的页面进行剖析,获取表单名所对应的实际内容。经过剖析,我 们得悉 typeid 是栏目 id,我们在发布文章时可能要指定不同的栏目的,所以我们要设置一 个变量[分类 ID]来代表栏目 id,同时设置”获取栏目列表“。 栏目列表页我们要获取的格式 是栏目名称和栏目 id,我们在来源页或是其它有栏目信息的网页的源代码中提取栏目信息。 Dedecms 的来源页面就有栏目信息,源码如下:我们填写的格式如下 分类的填写暂时就这样,我们在稍等再测试。经过我们的剖析用火车采集器发布信息时 如何获取网站栏目id,pubdate 这个表单是设 置发布时间的, 现在我们是须要使用服务器上的时间来发布的, 我们须要通过”网页随机值 获取“来获取这个时间并在发布时使用。 这个时间我们是可以在填写文章内容的页面上得到 的,我们先添加网页随机值注意,因为时 间每次都是不一样的,所以我们不要选”每次恳求都使用第一次获取的随机值“添加完 的结果是这儿的网 页随机值名为网页随机值1,我们同时要更改文章发表参数中的值。
  如下图。保存好后,我们如今 保存一下 Web 发布模块,在 Web 发布配置管理器中测试我们刚刚做的模块。我们打开 WebPostManager.exe 。新建一个发布配置,注意网站根地址是域名加后台地址,我们前面 有提及过。网站编码是 gbk.如果我们使用的是 utf8的 dedecms,要选 utf-8。 我们点击登陆,提示登陆成功。这 说明我们的登陆部份是正确的, 为了再度确认并获取登陆失败的标示, 我们改一下用户名或 密码,获取一下所有的错误信息,并将其填写到模块中去。这是更改 后的模块如今我们测试 一下获取列表,点击”获取列表“,可以看见是成功了。我们选一个栏 目,点击”测试配置“打开网站后台,结果正确。到此,该模块已基本完成,后边的工作是做更多细节的更改。模块完成后,我们就可以用于 实际发布过程中了。我们保存一下设置好的发布配置,就可以在其它的项目,如列车采集器 中使用该发布配置了。火车采集器中的发布请查看 五.火车采集器采集实例中的发布部份。

【图片采集】美女图片采集规则及DZ3.X门户发布规则分享

采集交流优采云 发表了文章 • 0 个评论 • 437 次浏览 • 2020-05-22 08:03 • 来自相关话题

  
  
  第二步:选择采集器自带的 DZ门户发布规则,双击打开进行编辑(用一个已有的来讲解,主要使你们了解发布规则的制做过程)
  
  第三步:起一个名子,上面的参数全部不要动,当然若果是自己新建发布规则,这些都是空的,上面的内容都要你自己按照自己的网站填写了。这是一个登陆配置,需要填写登陆的网址,以及用户名密码表单配置。
  
  第四步:获取网站栏目ID用火车采集器发布信息时 如何获取网站栏目id,这里填写的页面通常都是发布文章的页,可以通过源代码找到获取栏目ID的规则。
  
  第五步:内容发布参数设置,上面同样是发布页面网址,红框是须要发布的表单配置,这里的表单值的标签名须要和采集内容里的标签名相同。这里设置完后保存,起一个规则名称。
  
  第六步:回到第一步骤的界面用火车采集器发布信息时 如何获取网站栏目id,这里要选择网页编码,根据自己的网站编码来选择,GBK或UTF-8。这里还要填写你的网站地址,还有选择登陆形式,今天我这儿是选择了数据登陆,那须要填写你网站的有发布权限的用户名和密码。填写完毕以后我们点击 获取栏目步入下一步。
  
  第七步:如果配置成功,可以看见上图,总计获取到栏目列表多少个,然后下方出现栏目列表可以选择,选择你要发布的栏目,然后保存。
  
  第八步,这里要把上面的√打上
  
  第九步:我们回到内容采集设置的页面,可以测试采集一条,然后如上图,点击测试发布数据。如果成功会出现右图:
  
  至此发布规则设置成功!可以进行采集发布啦!
  补充:本规则是免费版规则,所以没有设置图片下载,这样的话发布到DZ是没有缩略图的,如果要解决此问题有两个方式。1、在DZ上装一个远程图片到本地的插件
  2、购买收费版采集器,设置图片下载和上传设置
  联系我们
  客服QQ:800019423
  客服电话:400-8757-060
  软件订购: 查看全部

  
  
  第二步:选择采集器自带的 DZ门户发布规则,双击打开进行编辑(用一个已有的来讲解,主要使你们了解发布规则的制做过程)
  
  第三步:起一个名子,上面的参数全部不要动,当然若果是自己新建发布规则,这些都是空的,上面的内容都要你自己按照自己的网站填写了。这是一个登陆配置,需要填写登陆的网址,以及用户名密码表单配置。
  
  第四步:获取网站栏目ID用火车采集器发布信息时 如何获取网站栏目id,这里填写的页面通常都是发布文章的页,可以通过源代码找到获取栏目ID的规则。
  
  第五步:内容发布参数设置,上面同样是发布页面网址,红框是须要发布的表单配置,这里的表单值的标签名须要和采集内容里的标签名相同。这里设置完后保存,起一个规则名称。
  
  第六步:回到第一步骤的界面用火车采集器发布信息时 如何获取网站栏目id,这里要选择网页编码,根据自己的网站编码来选择,GBK或UTF-8。这里还要填写你的网站地址,还有选择登陆形式,今天我这儿是选择了数据登陆,那须要填写你网站的有发布权限的用户名和密码。填写完毕以后我们点击 获取栏目步入下一步。
  
  第七步:如果配置成功,可以看见上图,总计获取到栏目列表多少个,然后下方出现栏目列表可以选择,选择你要发布的栏目,然后保存。
  
  第八步,这里要把上面的√打上
  
  第九步:我们回到内容采集设置的页面,可以测试采集一条,然后如上图,点击测试发布数据。如果成功会出现右图:
  
  至此发布规则设置成功!可以进行采集发布啦!
  补充:本规则是免费版规则,所以没有设置图片下载,这样的话发布到DZ是没有缩略图的,如果要解决此问题有两个方式。1、在DZ上装一个远程图片到本地的插件
  2、购买收费版采集器,设置图片下载和上传设置
  联系我们
  客服QQ:800019423
  客服电话:400-8757-060
  软件订购:

老Y文章管理系统采集自动伪原创解读

采集交流优采云 发表了文章 • 0 个评论 • 378 次浏览 • 2020-04-19 11:01 • 来自相关话题

  做垃圾站的站长们,最希望的事就是网站可以手动采集、自动完成伪原创、然后手动付钱,这实在是天底下最幸福的事,呵呵。自动采集和手动付钱就不讨论了,我昨天介绍一下怎样借助老Y文章管理系统采集时手动完成伪原创的技巧。
  老Y文章管理系统使用简单、方便,虽然功能不如DEDE之类的强悍到几乎变态的程度(当然,老Y文章管理系统是asp语言写的,似乎也没有可比性),但是该有的都有,且相当简单,所以也遭到了不少站长们的欢迎。老Y文章管理系统采集时手动完成伪原创的具体方式还极少有人阐述,在老Y的峰会上,甚至有人在卖这个方式,小小的厌恶一下。
  关于采集,我就不多说了,相信你们都可以搞定,我要介绍的是老Y文章管理系统怎样在采集的同时手动完成伪原创工作的具体方式,大体的思路就是借助老Y文章管理系统自带的过滤功能实现反义词的手动替换,从而达到伪原创的目的。比如我想将被采集文章中的所有“网赚博客”字样替换为“网赚日记”。详细步骤如下:
  第一步,进入后台。找到“采集管理”-“过滤管理”,添加一个新的过滤项目。
  我可以构建一个名为“网赚博客”的项目,具体设置请看图:
  “过滤名称”:填入“网赚博客”即可,也可以随便写,但是为了便捷查看,建议与被替换的词句一致。
  “所属项目”:请依照自己的网站进行选择一个网站栏目(必须选择一个栏目,否则过滤项目未能保存)
  “过滤对象”:可选项有“标题过滤”和“正文过滤”,一般选“正文过滤”即可,如果你连标题都想伪原创一下,可以选择“标题过滤”。
  “过滤类型”:可选项有“简单替换”和“高级过滤”,一般选“简单替换”,如果选择了“高级过滤”,需要指定“开始标记”和“结束标记”,这样可对采集来的内容进行代码级的替换。
  “使用状态”:可选项有“启用”和“禁用”,不用解释。
  “使用范围”:可选项有“公有”和“私有”。选择“私有”,该过滤仅对当前网站栏目有效;选择“公有”,对所有栏目都有效,不管采集任何栏目的任何内容,该过滤均有效。一般选“私有”即可。
  “内容”:填入“网赚博客”,将要被替换的熟语。
  “替换”:填入“网赚日记”,这样只要被采集的文章中富含“网赚博客”字样,就会被手动替换为“网赚日记”。
  第二步,重复第一步的工作,直到添加完所有的反义词。
  有网友要问了:我有30000多条反义词,难道要一条一条自动添加?那要到添加什么时候!?不能批量添加吗?
  这个问题问得好!手动添加的确几乎是个不可能完成的任务,除非你有超常的毅力,可以手工把这30000多条反义词添加进去。遗憾的是,老Y文章管理系统并没有提供批量导出的功能。但是老y文章管理系统采集功能怎么设置分页,作为真正的、资深的、有思想的懒人,我们要有懒人的觉悟。
  要知道,我们刚刚输入的内容,是储存在数据库中的,而老Y文章管理系统是用asp+Access写的,mdb数据库可以很方便的编辑!于是乎,我可以通过直接更改数据库的方式来批量导出伪原创替换规则!
  改进的第二步:修改数据库,批量导出规则。
  经过查找,我发觉这个数据库坐落“你的管理目录\cai\Database”下。用Access打开这个数据库,找到“Filters”表,你会发觉我们刚刚添加的替换规则就在这里存着呢,根据你的须要,批量添加吧!接下来的工作涉及到Access的操作了,我就不罗嗦了,大家自己可以搞定。
  解释一下“Filters”表中的几个数组的涵义:
  FilterID:自动生成,无需输入。
  ItemID:栏目ID,就是我们自动输入时“所属项目”的内容,不过这儿是个数字ID,注意跟栏目的采集ID做好对应,如果不知道ID,可以重复第一步,测试一下。
  FilterName:即“过滤名称”。
  FilterObjece:即“过滤对象”,填1为“标题过滤”,填2则是“正文过滤”。
  FilterType:即“过滤类型”,填1为“简单替换”,填2为“高级过滤”。
  FilterContent:即“内容”。
  FisString:即“开始标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FioString:即“结束标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FilterRep:即“替换”。
  Flag:即“使用状态”,TRUE为“启用”,FALSE为“禁用”。
  PublicTf:即“使用范围”。TRUE为“公有”,FALSE为“私有”。
  最后说一点借助过滤功能实现伪原创的使用体会:
  老Y文章管理系统的这个功能可以实现采集时手动伪原创,但是功能还不够强悍。比如我站上有“栏目一”、“栏目二”、“栏目三”共三个栏目。我希望“栏目一”对标题和正文都进行伪原创,“栏目二”只对正文进行伪原创,“栏目三”只对标题进行伪原创。
  于是老y文章管理系统采集功能怎么设置分页,我只能做如下设置(假设我有30000的反义词规则):
  为“栏目一”的标题伪原创创建30000条替换规则;
  为“栏目一”的正文伪原创创建30000条替换规则;
  为“栏目二”的正文伪原创创建30000条替换规则;
  为“栏目三”的标题伪原创创建30000条替换规则。
  这样就导致了极大的数据库浪费,如果我的站有几十个栏目,每个栏目的要求都不一样,这个数据库的规格将会非常惊悚。
  所以建议老Y文章管理系统下一版本将这个功能做一下改进:
  首先添加批量导出功能,毕竟更改数据库有一定的危险性。
  其次,过滤规则不再屈从于某个网站栏目,而是将过滤规则独立下来,而在构建新的采集项目的时侯,加入一条是否使用过滤规则的判别。
  相信,这样更改以后可以极大地节省数据库储存空间,同时逻辑结构也变得愈发清晰。 查看全部
  做垃圾站的站长们,最希望的事就是网站可以手动采集、自动完成伪原创、然后手动付钱,这实在是天底下最幸福的事,呵呵。自动采集和手动付钱就不讨论了,我昨天介绍一下怎样借助老Y文章管理系统采集时手动完成伪原创的技巧。
  老Y文章管理系统使用简单、方便,虽然功能不如DEDE之类的强悍到几乎变态的程度(当然,老Y文章管理系统是asp语言写的,似乎也没有可比性),但是该有的都有,且相当简单,所以也遭到了不少站长们的欢迎。老Y文章管理系统采集时手动完成伪原创的具体方式还极少有人阐述,在老Y的峰会上,甚至有人在卖这个方式,小小的厌恶一下。
  关于采集,我就不多说了,相信你们都可以搞定,我要介绍的是老Y文章管理系统怎样在采集的同时手动完成伪原创工作的具体方式,大体的思路就是借助老Y文章管理系统自带的过滤功能实现反义词的手动替换,从而达到伪原创的目的。比如我想将被采集文章中的所有“网赚博客”字样替换为“网赚日记”。详细步骤如下:
  第一步,进入后台。找到“采集管理”-“过滤管理”,添加一个新的过滤项目。
  我可以构建一个名为“网赚博客”的项目,具体设置请看图:
  “过滤名称”:填入“网赚博客”即可,也可以随便写,但是为了便捷查看,建议与被替换的词句一致。
  “所属项目”:请依照自己的网站进行选择一个网站栏目(必须选择一个栏目,否则过滤项目未能保存)
  “过滤对象”:可选项有“标题过滤”和“正文过滤”,一般选“正文过滤”即可,如果你连标题都想伪原创一下,可以选择“标题过滤”。
  “过滤类型”:可选项有“简单替换”和“高级过滤”,一般选“简单替换”,如果选择了“高级过滤”,需要指定“开始标记”和“结束标记”,这样可对采集来的内容进行代码级的替换。
  “使用状态”:可选项有“启用”和“禁用”,不用解释。
  “使用范围”:可选项有“公有”和“私有”。选择“私有”,该过滤仅对当前网站栏目有效;选择“公有”,对所有栏目都有效,不管采集任何栏目的任何内容,该过滤均有效。一般选“私有”即可。
  “内容”:填入“网赚博客”,将要被替换的熟语。
  “替换”:填入“网赚日记”,这样只要被采集的文章中富含“网赚博客”字样,就会被手动替换为“网赚日记”。
  第二步,重复第一步的工作,直到添加完所有的反义词。
  有网友要问了:我有30000多条反义词,难道要一条一条自动添加?那要到添加什么时候!?不能批量添加吗?
  这个问题问得好!手动添加的确几乎是个不可能完成的任务,除非你有超常的毅力,可以手工把这30000多条反义词添加进去。遗憾的是,老Y文章管理系统并没有提供批量导出的功能。但是老y文章管理系统采集功能怎么设置分页,作为真正的、资深的、有思想的懒人,我们要有懒人的觉悟。
  要知道,我们刚刚输入的内容,是储存在数据库中的,而老Y文章管理系统是用asp+Access写的,mdb数据库可以很方便的编辑!于是乎,我可以通过直接更改数据库的方式来批量导出伪原创替换规则!
  改进的第二步:修改数据库,批量导出规则。
  经过查找,我发觉这个数据库坐落“你的管理目录\cai\Database”下。用Access打开这个数据库,找到“Filters”表,你会发觉我们刚刚添加的替换规则就在这里存着呢,根据你的须要,批量添加吧!接下来的工作涉及到Access的操作了,我就不罗嗦了,大家自己可以搞定。
  解释一下“Filters”表中的几个数组的涵义:
  FilterID:自动生成,无需输入。
  ItemID:栏目ID,就是我们自动输入时“所属项目”的内容,不过这儿是个数字ID,注意跟栏目的采集ID做好对应,如果不知道ID,可以重复第一步,测试一下。
  FilterName:即“过滤名称”。
  FilterObjece:即“过滤对象”,填1为“标题过滤”,填2则是“正文过滤”。
  FilterType:即“过滤类型”,填1为“简单替换”,填2为“高级过滤”。
  FilterContent:即“内容”。
  FisString:即“开始标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FioString:即“结束标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FilterRep:即“替换”。
  Flag:即“使用状态”,TRUE为“启用”,FALSE为“禁用”。
  PublicTf:即“使用范围”。TRUE为“公有”,FALSE为“私有”。
  最后说一点借助过滤功能实现伪原创的使用体会:
  老Y文章管理系统的这个功能可以实现采集时手动伪原创,但是功能还不够强悍。比如我站上有“栏目一”、“栏目二”、“栏目三”共三个栏目。我希望“栏目一”对标题和正文都进行伪原创,“栏目二”只对正文进行伪原创,“栏目三”只对标题进行伪原创。
  于是老y文章管理系统采集功能怎么设置分页,我只能做如下设置(假设我有30000的反义词规则):
  为“栏目一”的标题伪原创创建30000条替换规则;
  为“栏目一”的正文伪原创创建30000条替换规则;
  为“栏目二”的正文伪原创创建30000条替换规则;
  为“栏目三”的标题伪原创创建30000条替换规则。
  这样就导致了极大的数据库浪费,如果我的站有几十个栏目,每个栏目的要求都不一样,这个数据库的规格将会非常惊悚。
  所以建议老Y文章管理系统下一版本将这个功能做一下改进:
  首先添加批量导出功能,毕竟更改数据库有一定的危险性。
  其次,过滤规则不再屈从于某个网站栏目,而是将过滤规则独立下来,而在构建新的采集项目的时侯,加入一条是否使用过滤规则的判别。
  相信,这样更改以后可以极大地节省数据库储存空间,同时逻辑结构也变得愈发清晰。

火车采集器发布模块制做教程

采集交流优采云 发表了文章 • 0 个评论 • 488 次浏览 • 2020-07-04 08:01 • 来自相关话题

  本次我们使用 DedeCMS5.7文章发布作为演示。我们首先下载安装好 gbk 版本的 DEDE,然后 下载数据包抓取工具 fiddler。下载完后成打开 fillder 和采集器的 Web 发布模块工具,然 后我们开始具体的开发过程。首先我们打开 dedecms 后台,开始登陆,登录成功后,我们可 以 据 看 到 fiddler 中 的 数 :从图中我们可以看见登陆过程中递交的数据。 我们按模块制做的流程, 先设置登陆地址后缀 和登陆地址来源页 (如果你使用外置浏览器登陆, 登录地址设置这一步就可以不用设置了) 。 这个对应关系如下:登录地址就是 POST 地址,来源页就是 Refer 那一行。因为发布模块通常是要针对一个系统 的,所以对好多用户来说,要设置的只是域名的不同,我们本次要除去域名部份和后台目录 部分的网址,将剩下的网址做为地址后缀填写进去。当其他用户使用我们的模块时,只要填 写域名地址带后台地址即可。填写的结果是:第二步, 我们复制 RAW 中的 POST 数据, 填写登陆 POST 数据, 注意是选中 Fiddler 的那一行。我们打 开 Web 发布模块编辑器,在“网站自动登入”那一页,点击“粘贴抓包获取的数据”。
  将我们刚刚复制的数据放进去。然后我们点击提取,会听到表单名和表单值早已手动填写好了。我们可以晓得,userid 是用户名,pwd 是密码,我们如今将这两个值替换成变量。我们点击 修改表单项,删除掉旧数据,单击用户名,结果如下我 们保存好, 再设置登陆成功标识码, 我们可以在 fiddler 返回的 html 代码中听到 “成功登 录, 正在转向管理管理主页”几个字样, 我们可以在登陆成功标识码中填写 “成功登陆“四 个字做为成功标示,当程序登入后发觉有这几个字样,就会觉得我们登陆成功。现在的程序 界面如下登 录过程我们最后再测试,现在我们设置内容发布参数。在 dedecms 中步入发布文章的页面, 简单的填写一下必要的数组,然后递交数据。在 fiddler 中见到如下结果,注意看圈住的几个地方用火车采集器发布信息时 如何获取网站栏目id,分别是 post 地址,以文本形式显示 RAW 代码,成功标识符。按登陆界面登陆地址和来源页的设置方法, 填写文章发布的地址和来源页, 我们点击 View In NotePad ,如图复制-----------------------------6962及以下的代码,到”内容发布参数 “的”粘贴抓包获取的数据“中去。
  点击提取后,我们再对表单值进行一些替换,如标签是 mytitle 替换成[标签:标题],内容 mycontent 替换成 [标签:内容]等。我们最后设置的结果如下: 我们如今要对发布时的页面进行剖析,获取表单名所对应的实际内容。经过剖析,我 们得悉 typeid 是栏目 id,我们在发布文章时可能要指定不同的栏目的,所以我们要设置一 个变量[分类 ID]来代表栏目 id,同时设置”获取栏目列表“。 栏目列表页我们要获取的格式 是栏目名称和栏目 id,我们在来源页或是其它有栏目信息的网页的源代码中提取栏目信息。 Dedecms 的来源页面就有栏目信息,源码如下:我们填写的格式如下 分类的填写暂时就这样,我们在稍等再测试。经过我们的剖析用火车采集器发布信息时 如何获取网站栏目id,pubdate 这个表单是设 置发布时间的, 现在我们是须要使用服务器上的时间来发布的, 我们须要通过”网页随机值 获取“来获取这个时间并在发布时使用。 这个时间我们是可以在填写文章内容的页面上得到 的,我们先添加网页随机值注意,因为时 间每次都是不一样的,所以我们不要选”每次恳求都使用第一次获取的随机值“添加完 的结果是这儿的网 页随机值名为网页随机值1,我们同时要更改文章发表参数中的值。
  如下图。保存好后,我们如今 保存一下 Web 发布模块,在 Web 发布配置管理器中测试我们刚刚做的模块。我们打开 WebPostManager.exe 。新建一个发布配置,注意网站根地址是域名加后台地址,我们前面 有提及过。网站编码是 gbk.如果我们使用的是 utf8的 dedecms,要选 utf-8。 我们点击登陆,提示登陆成功。这 说明我们的登陆部份是正确的, 为了再度确认并获取登陆失败的标示, 我们改一下用户名或 密码,获取一下所有的错误信息,并将其填写到模块中去。这是更改 后的模块如今我们测试 一下获取列表,点击”获取列表“,可以看见是成功了。我们选一个栏 目,点击”测试配置“打开网站后台,结果正确。到此,该模块已基本完成,后边的工作是做更多细节的更改。模块完成后,我们就可以用于 实际发布过程中了。我们保存一下设置好的发布配置,就可以在其它的项目,如列车采集器 中使用该发布配置了。火车采集器中的发布请查看 五.火车采集器采集实例中的发布部份。 查看全部

  本次我们使用 DedeCMS5.7文章发布作为演示。我们首先下载安装好 gbk 版本的 DEDE,然后 下载数据包抓取工具 fiddler。下载完后成打开 fillder 和采集器的 Web 发布模块工具,然 后我们开始具体的开发过程。首先我们打开 dedecms 后台,开始登陆,登录成功后,我们可 以 据 看 到 fiddler 中 的 数 :从图中我们可以看见登陆过程中递交的数据。 我们按模块制做的流程, 先设置登陆地址后缀 和登陆地址来源页 (如果你使用外置浏览器登陆, 登录地址设置这一步就可以不用设置了) 。 这个对应关系如下:登录地址就是 POST 地址,来源页就是 Refer 那一行。因为发布模块通常是要针对一个系统 的,所以对好多用户来说,要设置的只是域名的不同,我们本次要除去域名部份和后台目录 部分的网址,将剩下的网址做为地址后缀填写进去。当其他用户使用我们的模块时,只要填 写域名地址带后台地址即可。填写的结果是:第二步, 我们复制 RAW 中的 POST 数据, 填写登陆 POST 数据, 注意是选中 Fiddler 的那一行。我们打 开 Web 发布模块编辑器,在“网站自动登入”那一页,点击“粘贴抓包获取的数据”。
  将我们刚刚复制的数据放进去。然后我们点击提取,会听到表单名和表单值早已手动填写好了。我们可以晓得,userid 是用户名,pwd 是密码,我们如今将这两个值替换成变量。我们点击 修改表单项,删除掉旧数据,单击用户名,结果如下我 们保存好, 再设置登陆成功标识码, 我们可以在 fiddler 返回的 html 代码中听到 “成功登 录, 正在转向管理管理主页”几个字样, 我们可以在登陆成功标识码中填写 “成功登陆“四 个字做为成功标示,当程序登入后发觉有这几个字样,就会觉得我们登陆成功。现在的程序 界面如下登 录过程我们最后再测试,现在我们设置内容发布参数。在 dedecms 中步入发布文章的页面, 简单的填写一下必要的数组,然后递交数据。在 fiddler 中见到如下结果,注意看圈住的几个地方用火车采集器发布信息时 如何获取网站栏目id,分别是 post 地址,以文本形式显示 RAW 代码,成功标识符。按登陆界面登陆地址和来源页的设置方法, 填写文章发布的地址和来源页, 我们点击 View In NotePad ,如图复制-----------------------------6962及以下的代码,到”内容发布参数 “的”粘贴抓包获取的数据“中去。
  点击提取后,我们再对表单值进行一些替换,如标签是 mytitle 替换成[标签:标题],内容 mycontent 替换成 [标签:内容]等。我们最后设置的结果如下: 我们如今要对发布时的页面进行剖析,获取表单名所对应的实际内容。经过剖析,我 们得悉 typeid 是栏目 id,我们在发布文章时可能要指定不同的栏目的,所以我们要设置一 个变量[分类 ID]来代表栏目 id,同时设置”获取栏目列表“。 栏目列表页我们要获取的格式 是栏目名称和栏目 id,我们在来源页或是其它有栏目信息的网页的源代码中提取栏目信息。 Dedecms 的来源页面就有栏目信息,源码如下:我们填写的格式如下 分类的填写暂时就这样,我们在稍等再测试。经过我们的剖析用火车采集器发布信息时 如何获取网站栏目id,pubdate 这个表单是设 置发布时间的, 现在我们是须要使用服务器上的时间来发布的, 我们须要通过”网页随机值 获取“来获取这个时间并在发布时使用。 这个时间我们是可以在填写文章内容的页面上得到 的,我们先添加网页随机值注意,因为时 间每次都是不一样的,所以我们不要选”每次恳求都使用第一次获取的随机值“添加完 的结果是这儿的网 页随机值名为网页随机值1,我们同时要更改文章发表参数中的值。
  如下图。保存好后,我们如今 保存一下 Web 发布模块,在 Web 发布配置管理器中测试我们刚刚做的模块。我们打开 WebPostManager.exe 。新建一个发布配置,注意网站根地址是域名加后台地址,我们前面 有提及过。网站编码是 gbk.如果我们使用的是 utf8的 dedecms,要选 utf-8。 我们点击登陆,提示登陆成功。这 说明我们的登陆部份是正确的, 为了再度确认并获取登陆失败的标示, 我们改一下用户名或 密码,获取一下所有的错误信息,并将其填写到模块中去。这是更改 后的模块如今我们测试 一下获取列表,点击”获取列表“,可以看见是成功了。我们选一个栏 目,点击”测试配置“打开网站后台,结果正确。到此,该模块已基本完成,后边的工作是做更多细节的更改。模块完成后,我们就可以用于 实际发布过程中了。我们保存一下设置好的发布配置,就可以在其它的项目,如列车采集器 中使用该发布配置了。火车采集器中的发布请查看 五.火车采集器采集实例中的发布部份。

【图片采集】美女图片采集规则及DZ3.X门户发布规则分享

采集交流优采云 发表了文章 • 0 个评论 • 437 次浏览 • 2020-05-22 08:03 • 来自相关话题

  
  
  第二步:选择采集器自带的 DZ门户发布规则,双击打开进行编辑(用一个已有的来讲解,主要使你们了解发布规则的制做过程)
  
  第三步:起一个名子,上面的参数全部不要动,当然若果是自己新建发布规则,这些都是空的,上面的内容都要你自己按照自己的网站填写了。这是一个登陆配置,需要填写登陆的网址,以及用户名密码表单配置。
  
  第四步:获取网站栏目ID用火车采集器发布信息时 如何获取网站栏目id,这里填写的页面通常都是发布文章的页,可以通过源代码找到获取栏目ID的规则。
  
  第五步:内容发布参数设置,上面同样是发布页面网址,红框是须要发布的表单配置,这里的表单值的标签名须要和采集内容里的标签名相同。这里设置完后保存,起一个规则名称。
  
  第六步:回到第一步骤的界面用火车采集器发布信息时 如何获取网站栏目id,这里要选择网页编码,根据自己的网站编码来选择,GBK或UTF-8。这里还要填写你的网站地址,还有选择登陆形式,今天我这儿是选择了数据登陆,那须要填写你网站的有发布权限的用户名和密码。填写完毕以后我们点击 获取栏目步入下一步。
  
  第七步:如果配置成功,可以看见上图,总计获取到栏目列表多少个,然后下方出现栏目列表可以选择,选择你要发布的栏目,然后保存。
  
  第八步,这里要把上面的√打上
  
  第九步:我们回到内容采集设置的页面,可以测试采集一条,然后如上图,点击测试发布数据。如果成功会出现右图:
  
  至此发布规则设置成功!可以进行采集发布啦!
  补充:本规则是免费版规则,所以没有设置图片下载,这样的话发布到DZ是没有缩略图的,如果要解决此问题有两个方式。1、在DZ上装一个远程图片到本地的插件
  2、购买收费版采集器,设置图片下载和上传设置
  联系我们
  客服QQ:800019423
  客服电话:400-8757-060
  软件订购: 查看全部

  
  
  第二步:选择采集器自带的 DZ门户发布规则,双击打开进行编辑(用一个已有的来讲解,主要使你们了解发布规则的制做过程)
  
  第三步:起一个名子,上面的参数全部不要动,当然若果是自己新建发布规则,这些都是空的,上面的内容都要你自己按照自己的网站填写了。这是一个登陆配置,需要填写登陆的网址,以及用户名密码表单配置。
  
  第四步:获取网站栏目ID用火车采集器发布信息时 如何获取网站栏目id,这里填写的页面通常都是发布文章的页,可以通过源代码找到获取栏目ID的规则。
  
  第五步:内容发布参数设置,上面同样是发布页面网址,红框是须要发布的表单配置,这里的表单值的标签名须要和采集内容里的标签名相同。这里设置完后保存,起一个规则名称。
  
  第六步:回到第一步骤的界面用火车采集器发布信息时 如何获取网站栏目id,这里要选择网页编码,根据自己的网站编码来选择,GBK或UTF-8。这里还要填写你的网站地址,还有选择登陆形式,今天我这儿是选择了数据登陆,那须要填写你网站的有发布权限的用户名和密码。填写完毕以后我们点击 获取栏目步入下一步。
  
  第七步:如果配置成功,可以看见上图,总计获取到栏目列表多少个,然后下方出现栏目列表可以选择,选择你要发布的栏目,然后保存。
  
  第八步,这里要把上面的√打上
  
  第九步:我们回到内容采集设置的页面,可以测试采集一条,然后如上图,点击测试发布数据。如果成功会出现右图:
  
  至此发布规则设置成功!可以进行采集发布啦!
  补充:本规则是免费版规则,所以没有设置图片下载,这样的话发布到DZ是没有缩略图的,如果要解决此问题有两个方式。1、在DZ上装一个远程图片到本地的插件
  2、购买收费版采集器,设置图片下载和上传设置
  联系我们
  客服QQ:800019423
  客服电话:400-8757-060
  软件订购:

老Y文章管理系统采集自动伪原创解读

采集交流优采云 发表了文章 • 0 个评论 • 378 次浏览 • 2020-04-19 11:01 • 来自相关话题

  做垃圾站的站长们,最希望的事就是网站可以手动采集、自动完成伪原创、然后手动付钱,这实在是天底下最幸福的事,呵呵。自动采集和手动付钱就不讨论了,我昨天介绍一下怎样借助老Y文章管理系统采集时手动完成伪原创的技巧。
  老Y文章管理系统使用简单、方便,虽然功能不如DEDE之类的强悍到几乎变态的程度(当然,老Y文章管理系统是asp语言写的,似乎也没有可比性),但是该有的都有,且相当简单,所以也遭到了不少站长们的欢迎。老Y文章管理系统采集时手动完成伪原创的具体方式还极少有人阐述,在老Y的峰会上,甚至有人在卖这个方式,小小的厌恶一下。
  关于采集,我就不多说了,相信你们都可以搞定,我要介绍的是老Y文章管理系统怎样在采集的同时手动完成伪原创工作的具体方式,大体的思路就是借助老Y文章管理系统自带的过滤功能实现反义词的手动替换,从而达到伪原创的目的。比如我想将被采集文章中的所有“网赚博客”字样替换为“网赚日记”。详细步骤如下:
  第一步,进入后台。找到“采集管理”-“过滤管理”,添加一个新的过滤项目。
  我可以构建一个名为“网赚博客”的项目,具体设置请看图:
  “过滤名称”:填入“网赚博客”即可,也可以随便写,但是为了便捷查看,建议与被替换的词句一致。
  “所属项目”:请依照自己的网站进行选择一个网站栏目(必须选择一个栏目,否则过滤项目未能保存)
  “过滤对象”:可选项有“标题过滤”和“正文过滤”,一般选“正文过滤”即可,如果你连标题都想伪原创一下,可以选择“标题过滤”。
  “过滤类型”:可选项有“简单替换”和“高级过滤”,一般选“简单替换”,如果选择了“高级过滤”,需要指定“开始标记”和“结束标记”,这样可对采集来的内容进行代码级的替换。
  “使用状态”:可选项有“启用”和“禁用”,不用解释。
  “使用范围”:可选项有“公有”和“私有”。选择“私有”,该过滤仅对当前网站栏目有效;选择“公有”,对所有栏目都有效,不管采集任何栏目的任何内容,该过滤均有效。一般选“私有”即可。
  “内容”:填入“网赚博客”,将要被替换的熟语。
  “替换”:填入“网赚日记”,这样只要被采集的文章中富含“网赚博客”字样,就会被手动替换为“网赚日记”。
  第二步,重复第一步的工作,直到添加完所有的反义词。
  有网友要问了:我有30000多条反义词,难道要一条一条自动添加?那要到添加什么时候!?不能批量添加吗?
  这个问题问得好!手动添加的确几乎是个不可能完成的任务,除非你有超常的毅力,可以手工把这30000多条反义词添加进去。遗憾的是,老Y文章管理系统并没有提供批量导出的功能。但是老y文章管理系统采集功能怎么设置分页,作为真正的、资深的、有思想的懒人,我们要有懒人的觉悟。
  要知道,我们刚刚输入的内容,是储存在数据库中的,而老Y文章管理系统是用asp+Access写的,mdb数据库可以很方便的编辑!于是乎,我可以通过直接更改数据库的方式来批量导出伪原创替换规则!
  改进的第二步:修改数据库,批量导出规则。
  经过查找,我发觉这个数据库坐落“你的管理目录\cai\Database”下。用Access打开这个数据库,找到“Filters”表,你会发觉我们刚刚添加的替换规则就在这里存着呢,根据你的须要,批量添加吧!接下来的工作涉及到Access的操作了,我就不罗嗦了,大家自己可以搞定。
  解释一下“Filters”表中的几个数组的涵义:
  FilterID:自动生成,无需输入。
  ItemID:栏目ID,就是我们自动输入时“所属项目”的内容,不过这儿是个数字ID,注意跟栏目的采集ID做好对应,如果不知道ID,可以重复第一步,测试一下。
  FilterName:即“过滤名称”。
  FilterObjece:即“过滤对象”,填1为“标题过滤”,填2则是“正文过滤”。
  FilterType:即“过滤类型”,填1为“简单替换”,填2为“高级过滤”。
  FilterContent:即“内容”。
  FisString:即“开始标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FioString:即“结束标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FilterRep:即“替换”。
  Flag:即“使用状态”,TRUE为“启用”,FALSE为“禁用”。
  PublicTf:即“使用范围”。TRUE为“公有”,FALSE为“私有”。
  最后说一点借助过滤功能实现伪原创的使用体会:
  老Y文章管理系统的这个功能可以实现采集时手动伪原创,但是功能还不够强悍。比如我站上有“栏目一”、“栏目二”、“栏目三”共三个栏目。我希望“栏目一”对标题和正文都进行伪原创,“栏目二”只对正文进行伪原创,“栏目三”只对标题进行伪原创。
  于是老y文章管理系统采集功能怎么设置分页,我只能做如下设置(假设我有30000的反义词规则):
  为“栏目一”的标题伪原创创建30000条替换规则;
  为“栏目一”的正文伪原创创建30000条替换规则;
  为“栏目二”的正文伪原创创建30000条替换规则;
  为“栏目三”的标题伪原创创建30000条替换规则。
  这样就导致了极大的数据库浪费,如果我的站有几十个栏目,每个栏目的要求都不一样,这个数据库的规格将会非常惊悚。
  所以建议老Y文章管理系统下一版本将这个功能做一下改进:
  首先添加批量导出功能,毕竟更改数据库有一定的危险性。
  其次,过滤规则不再屈从于某个网站栏目,而是将过滤规则独立下来,而在构建新的采集项目的时侯,加入一条是否使用过滤规则的判别。
  相信,这样更改以后可以极大地节省数据库储存空间,同时逻辑结构也变得愈发清晰。 查看全部
  做垃圾站的站长们,最希望的事就是网站可以手动采集、自动完成伪原创、然后手动付钱,这实在是天底下最幸福的事,呵呵。自动采集和手动付钱就不讨论了,我昨天介绍一下怎样借助老Y文章管理系统采集时手动完成伪原创的技巧。
  老Y文章管理系统使用简单、方便,虽然功能不如DEDE之类的强悍到几乎变态的程度(当然,老Y文章管理系统是asp语言写的,似乎也没有可比性),但是该有的都有,且相当简单,所以也遭到了不少站长们的欢迎。老Y文章管理系统采集时手动完成伪原创的具体方式还极少有人阐述,在老Y的峰会上,甚至有人在卖这个方式,小小的厌恶一下。
  关于采集,我就不多说了,相信你们都可以搞定,我要介绍的是老Y文章管理系统怎样在采集的同时手动完成伪原创工作的具体方式,大体的思路就是借助老Y文章管理系统自带的过滤功能实现反义词的手动替换,从而达到伪原创的目的。比如我想将被采集文章中的所有“网赚博客”字样替换为“网赚日记”。详细步骤如下:
  第一步,进入后台。找到“采集管理”-“过滤管理”,添加一个新的过滤项目。
  我可以构建一个名为“网赚博客”的项目,具体设置请看图:
  “过滤名称”:填入“网赚博客”即可,也可以随便写,但是为了便捷查看,建议与被替换的词句一致。
  “所属项目”:请依照自己的网站进行选择一个网站栏目(必须选择一个栏目,否则过滤项目未能保存)
  “过滤对象”:可选项有“标题过滤”和“正文过滤”,一般选“正文过滤”即可,如果你连标题都想伪原创一下,可以选择“标题过滤”。
  “过滤类型”:可选项有“简单替换”和“高级过滤”,一般选“简单替换”,如果选择了“高级过滤”,需要指定“开始标记”和“结束标记”,这样可对采集来的内容进行代码级的替换。
  “使用状态”:可选项有“启用”和“禁用”,不用解释。
  “使用范围”:可选项有“公有”和“私有”。选择“私有”,该过滤仅对当前网站栏目有效;选择“公有”,对所有栏目都有效,不管采集任何栏目的任何内容,该过滤均有效。一般选“私有”即可。
  “内容”:填入“网赚博客”,将要被替换的熟语。
  “替换”:填入“网赚日记”,这样只要被采集的文章中富含“网赚博客”字样,就会被手动替换为“网赚日记”。
  第二步,重复第一步的工作,直到添加完所有的反义词。
  有网友要问了:我有30000多条反义词,难道要一条一条自动添加?那要到添加什么时候!?不能批量添加吗?
  这个问题问得好!手动添加的确几乎是个不可能完成的任务,除非你有超常的毅力,可以手工把这30000多条反义词添加进去。遗憾的是,老Y文章管理系统并没有提供批量导出的功能。但是老y文章管理系统采集功能怎么设置分页,作为真正的、资深的、有思想的懒人,我们要有懒人的觉悟。
  要知道,我们刚刚输入的内容,是储存在数据库中的,而老Y文章管理系统是用asp+Access写的,mdb数据库可以很方便的编辑!于是乎,我可以通过直接更改数据库的方式来批量导出伪原创替换规则!
  改进的第二步:修改数据库,批量导出规则。
  经过查找,我发觉这个数据库坐落“你的管理目录\cai\Database”下。用Access打开这个数据库,找到“Filters”表,你会发觉我们刚刚添加的替换规则就在这里存着呢,根据你的须要,批量添加吧!接下来的工作涉及到Access的操作了,我就不罗嗦了,大家自己可以搞定。
  解释一下“Filters”表中的几个数组的涵义:
  FilterID:自动生成,无需输入。
  ItemID:栏目ID,就是我们自动输入时“所属项目”的内容,不过这儿是个数字ID,注意跟栏目的采集ID做好对应,如果不知道ID,可以重复第一步,测试一下。
  FilterName:即“过滤名称”。
  FilterObjece:即“过滤对象”,填1为“标题过滤”,填2则是“正文过滤”。
  FilterType:即“过滤类型”,填1为“简单替换”,填2为“高级过滤”。
  FilterContent:即“内容”。
  FisString:即“开始标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FioString:即“结束标记”,仅在设置了“高级过滤”时有效,如果设置了“简单过滤”请留空。
  FilterRep:即“替换”。
  Flag:即“使用状态”,TRUE为“启用”,FALSE为“禁用”。
  PublicTf:即“使用范围”。TRUE为“公有”,FALSE为“私有”。
  最后说一点借助过滤功能实现伪原创的使用体会:
  老Y文章管理系统的这个功能可以实现采集时手动伪原创,但是功能还不够强悍。比如我站上有“栏目一”、“栏目二”、“栏目三”共三个栏目。我希望“栏目一”对标题和正文都进行伪原创,“栏目二”只对正文进行伪原创,“栏目三”只对标题进行伪原创。
  于是老y文章管理系统采集功能怎么设置分页,我只能做如下设置(假设我有30000的反义词规则):
  为“栏目一”的标题伪原创创建30000条替换规则;
  为“栏目一”的正文伪原创创建30000条替换规则;
  为“栏目二”的正文伪原创创建30000条替换规则;
  为“栏目三”的标题伪原创创建30000条替换规则。
  这样就导致了极大的数据库浪费,如果我的站有几十个栏目,每个栏目的要求都不一样,这个数据库的规格将会非常惊悚。
  所以建议老Y文章管理系统下一版本将这个功能做一下改进:
  首先添加批量导出功能,毕竟更改数据库有一定的危险性。
  其次,过滤规则不再屈从于某个网站栏目,而是将过滤规则独立下来,而在构建新的采集项目的时侯,加入一条是否使用过滤规则的判别。
  相信,这样更改以后可以极大地节省数据库储存空间,同时逻辑结构也变得愈发清晰。

官方客服QQ群

微信人工客服

QQ人工客服


线