自动采集文章(如何使用旧的Y文章管理系统在收集时自动完成伪原件)
优采云 发布时间: 2021-10-01 10:05自动采集文章(如何使用旧的Y文章管理系统在收集时自动完成伪原件)
各种互联网项目,新手都能操作,几乎都是零门槛
对于垃圾站老板来说,最好的事情就是网站可以自动收,自动补假原,然后自动收钱。这真的是世界上最幸福的事情。哈哈。自动采集和自动采集就不讨论了。今天给大家介绍一下如何利用旧的Y文章管理系统,在采集时自动补全假原件。
旧的Y项目管理系统使用简单方便。虽然它的功能没有DEDE之类的强大,但几乎变态(当然,老Y文章管理系统是用asp语言写的,好像无法比拟的),但它应有尽有,而且它相当简单,因此也受到了许多站长的欢迎。采集旧的Y文章管理系统时,很少有人讨论过自动补全假原件的具体方法。在老Y论坛上,甚至有人在兜售这种方法,有点鄙视。
关于采集我就不多说了。我相信每个人都能应付。我要介绍的是,旧的Y文件管理系统如何在采集的同时自动完成伪造原件的工作。总体思路是利用老Y文章管理系统的过滤功能,自动替换同义词,从而达到伪原创的目的。比如我想把采集到的文章中的所有“网络赚钱博客”都换成“网络赚钱日记”。具体步骤如下:
第一步是进入后台。找到采集管理-过滤器管理并添加新的过滤器项。
我可以构建一个名为“Internet Earning Blog”的项目。具体设置如下图所示:
“过滤器名称”:填写“网赚博客”或随意写,但为了方便查看,建议与替换词保持一致。
“子项目”:请根据您的网站选择网站的一列(必须选择一列,否则过滤后的项目无法保存)。
“过滤对象”:选项包括“标题过滤器”和“文本过滤器”。通常,您可以选择“文本过滤器”。如果你想伪原创 偶标题,你可以选择“标题过滤器”。
“过滤器类型”:选项包括“简单更换”和“高级过滤器”。通常选择“简单替换”。如果选择“Advanced Filter”,则需要指定“Start Tag”和“End Tag”,以便可以在代码级别替换采集的内容。
“使用状态”:选项为“启用”和“禁用”,不作解释。
“使用范围”:选项为“公共”和“私人”。选择“私有”,过滤器只对当前网站上的列有效。选择“公共”,它对所有列都有效。无论从任何列采集什么内容,此过滤器都是有效的。一般选择“私人”。
“内容”:填写要替换的词为“净收入博客”。
“替换”:填写“网赚日记”,只要采集到的文章中收录“网赚博客”字样,就会自动替换为“网赚日记”。
第二步是重复第一步的工作,直到所有的同义词都添加完毕。
有网友想问:我有3万多个同义词,需要手动一一添加吗?什么时候添加?? 不能批量添加吗?
这是一个很好的问题!手动添加确实是几乎不可能完成的任务,除非你有非凡的毅力,否则你可以手动添加这三万个同义词。遗憾的是,旧的Y 项目管理系统没有提供批量导入的功能。但是,作为一个真实的、有经验的、有思想的懒鬼,我们应该有一个懒鬼的意识。
要知道,我们刚刚输入的内容是存放在数据库中的,老Y文章管理系统是用asp+Access编写的,mdb数据库编辑起来非常方便!所以我可以直接修改数据库批量导入伪原创替换规则!
改进的第二步是批量修改数据库和导入规则。
搜索后发现数据库在“你的管理目录\cai\Database”下。使用 Access 打开此数据库并找到“过滤器”表。你会发现我们刚刚添加的替换规则就存放在这里。根据您的需要分批添加。下面的工作涉及到访问操作,就不多说了,大家可以自己处理。
解释一下“过滤器”表中几个字段的含义:
FilterID:自动生成,无需输入。
项目ID(ItemID):列ID是我们手动输入时“子项目”的内容。然而,这是一个数字标志。请注意,它对应于列的集合 ID。如果你不知道这个标志,你可以重复第一步并测试。
过滤器名称:过滤器的名称。
过滤对象:“过滤对象”,填1为“标题过滤”,填2为“文本过滤”。
过滤器类型:“过滤器类型”。“简单更换”填1,“高级过滤器”填2。
FilterContent:意思是“内容”。
FisString:“起始标签”仅在设置“高级过滤”时有效。如果设置了“简单过滤器”,请将其留空。
FioString:结束标志,仅在设置高级过滤器时有效。如果设置了简单过滤器,请将其留空。
过滤器代表:即“替换”
logo:“使用状态”,true 表示“启用”,false 表示“禁用”。
PublicTf:“使用范围”。真“公”假“私”
最后想说几句关于使用过滤功能实现伪原创的感觉。
老Y文件管理系统的这个功能可以在采集的过程中实现自动伪造原件,但是功能不够强大。比如我的站有三列:第一列,第二列,第三列。我希望“Column 1”对标题和文本实施伪原创,“Column 2”仅对文本实施伪原创,“Column 3”对标题实施伪原创只要。
因此,我只能进行以下设置(假设我有30,000条同义词规则):
为“第一列”的伪原创标题创建30000条替换规则;
为“第一栏”的伪原文创建30000条替换规则;
为“第2栏”中的伪原创文本创建30,000条替换规则;
为伪原创标题“第3列”创建30,000条替换规则。
这造成了数据库的巨大浪费。如果我的网站有几十个栏目,而且每个栏目都有不同的要求,那么这个数据库的规模会很可怕。
所以建议老Y文章管理系统下个版本完善这个功能:
先添加批量导入功能,毕竟修改数据库有一定的风险。
其次,过滤规则不再附属于某个网站列,而是过滤规则是独立的,在新建集合项时加入了是否使用过滤规则的判断。
相信这样的修改可以大大节省数据库的存储空间,让逻辑结构更加清晰。