自动采集文章(如何使用旧的Y文章管理系统在收集时自动完成伪原件)

优采云发布时间: 2021-10-01 10:05

　　各种互联网项目，新手都能操作，几乎都是零门槛

　　对于垃圾站老板来说，最好的事情就是网站可以自动收，自动补假原，然后自动收钱。这真的是世界上最幸福的事情。哈哈。自动采集和自动采集就不讨论了。今天给大家介绍一下如何利用旧的Y文章管理系统，在采集时自动补全假原件。

　　旧的Y项目管理系统使用简单方便。虽然它的功能没有DEDE之类的强大，但几乎变态（当然，老Y文章管理系统是用asp语言写的，好像无法比拟的），但它应有尽有，而且它相当简单，因此也受到了许多站长的欢迎。采集旧的Y文章管理系统时，很少有人讨论过自动补全假原件的具体方法。在老Y论坛上，甚至有人在兜售这种方法，有点鄙视。

　　关于采集我就不多说了。我相信每个人都能应付。我要介绍的是，旧的Y文件管理系统如何在采集的同时自动完成伪造原件的工作。总体思路是利用老Y文章管理系统的过滤功能，自动替换同义词，从而达到伪原创的目的。比如我想把采集到的文章中的所有“网络赚钱博客”都换成“网络赚钱日记”。具体步骤如下：

　　第一步是进入后台。找到采集管理-过滤器管理并添加新的过滤器项。

　　我可以构建一个名为“Internet Earning Blog”的项目。具体设置如下图所示：

　　“过滤器名称”：填写“网赚博客”或随意写，但为了方便查看，建议与替换词保持一致。

　　“子项目”：请根据您的网站选择网站的一列（必须选择一列，否则过滤后的项目无法保存）。

　　“过滤对象”：选项包括“标题过滤器”和“文本过滤器”。通常，您可以选择“文本过滤器”。如果你想伪原创偶标题，你可以选择“标题过滤器”。

　　“过滤器类型”：选项包括“简单更换”和“高级过滤器”。通常选择“简单替换”。如果选择“Advanced Filter”，则需要指定“Start Tag”和“End Tag”，以便可以在代码级别替换采集的内容。

　　“使用状态”：选项为“启用”和“禁用”，不作解释。

　　“使用范围”：选项为“公共”和“私人”。选择“私有”，过滤器只对当前网站上的列有效。选择“公共”，它对所有列都有效。无论从任何列采集什么内容，此过滤器都是有效的。一般选择“私人”。

　　“内容”：填写要替换的词为“净收入博客”。

　　“替换”：填写“网赚日记”，只要采集到的文章中收录“网赚博客”字样，就会自动替换为“网赚日记”。

　　第二步是重复第一步的工作，直到所有的同义词都添加完毕。

　　有网友想问：我有3万多个同义词，需要手动一一添加吗？什么时候添加？? 不能批量添加吗？

　　这是一个很好的问题！手动添加确实是几乎不可能完成的任务，除非你有非凡的毅力，否则你可以手动添加这三万个同义词。遗憾的是，旧的Y 项目管理系统没有提供批量导入的功能。但是，作为一个真实的、有经验的、有思想的懒鬼，我们应该有一个懒鬼的意识。

　　要知道，我们刚刚输入的内容是存放在数据库中的，老Y文章管理系统是用asp+Access编写的，mdb数据库编辑起来非常方便！所以我可以直接修改数据库批量导入伪原创替换规则！

　　改进的第二步是批量修改数据库和导入规则。

　　搜索后发现数据库在“你的管理目录\cai\Database”下。使用 Access 打开此数据库并找到“过滤器”表。你会发现我们刚刚添加的替换规则就存放在这里。根据您的需要分批添加。下面的工作涉及到访问操作，就不多说了，大家可以自己处理。

　　解释一下“过滤器”表中几个字段的含义：

　　FilterID：自动生成，无需输入。

　　项目ID（ItemID）：列ID是我们手动输入时“子项目”的内容。然而，这是一个数字标志。请注意，它对应于列的集合 ID。如果你不知道这个标志，你可以重复第一步并测试。

　　过滤器名称：过滤器的名称。

　　过滤对象：“过滤对象”，填1为“标题过滤”，填2为“文本过滤”。

　　过滤器类型：“过滤器类型”。“简单更换”填1，“高级过滤器”填2。

　　FilterContent：意思是“内容”。

　　FisString：“起始标签”仅在设置“高级过滤”时有效。如果设置了“简单过滤器”，请将其留空。

　　FioString：结束标志，仅在设置高级过滤器时有效。如果设置了简单过滤器，请将其留空。

　　过滤器代表：即“替换”

　　logo：“使用状态”，true 表示“启用”，false 表示“禁用”。

　　PublicTf：“使用范围”。真“公”假“私”

　　最后想说几句关于使用过滤功能实现伪原创的感觉。

　　老Y文件管理系统的这个功能可以在采集的过程中实现自动伪造原件，但是功能不够强大。比如我的站有三列：第一列，第二列，第三列。我希望“Column 1”对标题和文本实施伪原创，“Column 2”仅对文本实施伪原创，“Column 3”对标题实施伪原创只要。

　　因此，我只能进行以下设置（假设我有30,000条同义词规则）：

　　为“第一列”的伪原创标题创建30000条替换规则；

　　为“第一栏”的伪原文创建30000条替换规则；

　　为“第2栏”中的伪原创文本创建30,000条替换规则；

　　为伪原创标题“第3列”创建30,000条替换规则。

　　这造成了数据库的巨大浪费。如果我的网站有几十个栏目，而且每个栏目都有不同的要求，那么这个数据库的规模会很可怕。

　　所以建议老Y文章管理系统下个版本完善这个功能：

　　先添加批量导入功能，毕竟修改数据库有一定的风险。

　　其次，过滤规则不再附属于某个网站列，而是过滤规则是独立的，在新建集合项时加入了是否使用过滤规则的判断。

　　相信这样的修改可以大大节省数据库的存储空间，让逻辑结构更加清晰。

0

2021-10-01

自动采集文章

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

自动采集文章(如何使用旧的Y文章管理系统在收集时自动完成伪原件)

0 个评论

发起人

AI时代内容工厂

自动采集文章(如何使用旧的Y文章管理系统在收集时自动完成伪原件)

0 个评论

发起人

相关问题