[转] PHP: 制作自己的假冒原创程序

优采云发布时间: 2020-08-07 16:20

　　原创性是网站优化的法宝. 下面将解释如何在PHP环境中开发基于PHP的伪原创编写软件程序. 本文假定I Ching的读者具有PHP的知识，因此将不提供PHP教程.

　　教学环境:

　　1，PHP

　　2. MYSQL对织梦有好处，对织梦也有好处

　　3，SCWS分词系统

　　类似于PHP脚本，类似于MYSQL数据库，并且类似于分词系统. 这里仅提供想法.

　　第一步: 配置环境！梦织内容管理系统

　　这里需要做的是下载SCWS分析系统，根据官方指南安装系统，然后通过测试. 在其他背景脚本中，数据库不会说太多. SCWS设计用于C语言，并且还为PHP创建了一个扩展库. 您也可以使用C语言制作伪原创程序. 本文来自Dream Weaving

　　第2步: 获取文章，解散文章，编织好梦想，编织好梦想

　　文章的所谓肢解是将文章分为句子. 该句子需要由您自己的程序编写. 我提供一个想法: 使用句号，感叹号，问号作为句子标识，在引号上方，左括号，左书名等. 以右引号，右括号和右书名作为结尾字符. 遍历文章，遇到开始字符时进入非句子状态，遇到结束字符时退出此状态. 当遇到句子标记时，仅当当前状态处于可判刑状态时，读取的内容才被分为一个句子，在此循环中，将文章逐个分解为句子. 此处子句状态的目的是保护一段内容中的子句标识，例如括号，引号，书籍标题编号等，例如[他说: “*敏*感*词*. ”]在这里[*敏*感*词*. ]不会被错误细分.

　　第3步: 分词有利于织梦，有利于织梦

　　将分解后的句子进一步分解以获得分词. 例如，句子[一个是水果，另一个是蔬菜]可以分为[苹果] [和] [番茄] [一个] [是] [水果] [一个] [是] [蔬菜]. 在此步骤中，需要SCWS的帮助. 正常安装分词系统后，分词操作仅需要一项功能. 就这么简单！此外，除了分解单词外，还必须获得名词，动词等单词的属性.

　　步骤4: 关键字的同义词替换

　　这里需要知识库的支持，请下载“哈尔滨工业大学信息检索实验室同义词西林”的扩展版，其中收录非常完整的同义词列表，每个单词都有多个代码，这意味着该单词是多义的，一个代码下面有多个单词，表示这些单词是同义词，请阅读它们并将其保存在数据库中以备后用. 本文来自Dream Weaving

　　根据相关字段设置关键字. 例如，如果您是房地产网站，则您的关键字可能是租赁，出租，二手房，购买房屋，住房合同，并在该字段单词中找到许多关键点，然后根据同义词词林. 为什么只替换关键字？因为替换了非关键字部分，所以可能会导致奇异性，并且它不是字段中的单词，并且权重不如字段关键字高. 丧失使句子流利的伪原创性，所获得的收益不值得损失.

　　第5步: 标点符号乱舞

　　文章相似度的计算是基于句子相似度，而句子相似度是根据单词相似度来计算的，因此即使将关键字替换为同义词，仍将判断文章和原创文本是我该怎么办类似的文章？首先，让我们看一下如何计算文章相似度.

　　前面提到的同义词Cilin的编码实际上是很有知识的，而不是随机码. 同义词Cilin的扩展版本使用代码来识别单词的含义. 该代码可分为5部分. 它们是大类别，中类别，小类别，单词组，原子单词组，例如学生和老师. 这两个词必须属于一个大类别，因为它们都是人，而西红柿和西红柿必须是一个词组，因为它们是指一件事. 这样，相似度的计算就很简单. 同样按100计算. 如果主要类别相同，则为10；如果中间类别再次相同，则为20；如果较小类别再次相同，则为50. 相同为90；如果原子词组相同还是一样，就是100. 为什么在这里使用“ re”一词，因为只要其中之一不同，就不需要比较它们. 例如，两个具有不同主要类别（中类别和次要类别）的单词肯定是不同的.

　　在此处比较两篇文章中出现在句子中的单词的相似度，计算每个句子的相似度，然后计算文章的相似度. 这涉及到一种类似于Google PR算法的算法，该算法由贡献计算相似度叠加.

　　那么，我们该怎么办？我们必须打乱标点符号并干扰搜索引擎的句子处理. 内容来自下标

　　人们阅读文章，尤其是新闻或信息时，通常不会在意标点符号. 有些人甚至只是粗略地看了一眼. 即使句子令人困惑，该文章的总体思路也不会有问题，因此我们应该自由撰写该文章. 句号和逗号可以随意替换，这会影响搜索引擎的句子分段，从而影响到相似度计算.

　　第6步: 在段落开头创建摘要

　　本文的内容越重要，毫无疑问，因此我们需要对文章进行总结，并将其放在文章的顶部. 摘要必须具有一定的压缩率，例如一篇1000字的文章，一篇100字的文章. 摘要就足够了，这里不按字数计算，更方便按句子数计算，因为我们已经处理了文章的句子. 对于500个句子的文章，请执行大约20个句子的摘要. 摘要的核心是选择摘要语句，因为摘要本身就是让人们理解其一般含义，因此可以接受一些语义障碍.

　　我之前提到过关键字. 提取摘要也需要关键字. 我们按权重提取抽象句子. 收录关键字的句子具有较高的权重. 数字越多，权重越高. 我们计算每个句子的权重. 然后根据原创文本的顺序，按权重顺序提取它们，直到提取出所需的句子数为止. 将它们缝合在一起，成为文章的摘要.

　　我们可以在这里做得更好. 在Internet上找到句子相似度计算算法，计算句子相似度，删除相似句子，并防止语义重复. 因为收录许多关键字的句子很可能意味着重复.

　　第7步: 定制的标题织梦内容管理系统

　　伪原创非常重要的一点是更改标题. 标题必须更改. 根据相似度计算算法，我们必须将标题更改为全新的标题. 例如，将[高考10笔]更改为[高考10笔]. 更改法律，您只是将百度视为***. 您如何更改？你会胡说八道吗？ [专家给您十分帮助您准备高考] [做这十个项目，并在高考中获得满分] [清华大学距离您只有十步之遥！]这些头衔的含义并没有改变了，但是点击非常吸引人，搜索引擎不会找到相同的文章. 不错？好梦编织，好梦编织

　　第8步: 破坏权重较低的句子的顺序

　　低权重的句子也可以派上用场. 尽管我们认为这些句子不是很重要，但是搜索引擎并不知道. 我们稍微调整了它们的顺序，这不影响语义，但具有伪原创效果. 好吧.

　　对于当前的伪原创软件，不建议无序地破坏句子的顺序. 例如，一篇文章介绍了10种软件，并且标记了1、2、3和4的顺序. 在伪原创之后，顺序被弄乱了，读者将以一种难以置信的方式阅读它. 本文介绍了从本地范围开始加扰的句子加扰，全部都是非关键句子.

0

2020-08-07

关键句采集原创

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

[转] PHP: 制作自己的假冒原创程序

0 个评论

发起人