[转] PHP: 制作自己的假冒原创程序
优采云 发布时间: 2020-08-07 16:20原创性是网站优化的法宝. 下面将解释如何在PHP环境中开发基于PHP的伪原创编写软件程序. 本文假定I Ching的读者具有PHP的知识,因此将不提供PHP教程.
教学环境:
1,PHP
2. MYSQL对织梦有好处,对织梦也有好处
3,SCWS分词系统
类似于PHP脚本,类似于MYSQL数据库,并且类似于分词系统. 这里仅提供想法.
第一步: 配置环境!梦织内容管理系统
这里需要做的是下载SCWS分析系统,根据官方指南安装系统,然后通过测试. 在其他背景脚本中,数据库不会说太多. SCWS设计用于C语言,并且还为PHP创建了一个扩展库. 您也可以使用C语言制作伪原创程序. 本文来自Dream Weaving
第2步: 获取文章,解散文章,编织好梦想,编织好梦想
文章的所谓肢解是将文章分为句子. 该句子需要由您自己的程序编写. 我提供一个想法: 使用句号,感叹号,问号作为句子标识,在引号上方,左括号,左书名等. 以右引号,右括号和右书名作为结尾字符. 遍历文章,遇到开始字符时进入非句子状态,遇到结束字符时退出此状态. 当遇到句子标记时,仅当当前状态处于可判刑状态时,读取的内容才被分为一个句子,在此循环中,将文章逐个分解为句子. 此处子句状态的目的是保护一段内容中的子句标识,例如括号,引号,书籍标题编号等,例如[他说: “*敏*感*词*. ”]在这里[*敏*感*词*. ]不会被错误细分.
第3步: 分词有利于织梦,有利于织梦
将分解后的句子进一步分解以获得分词. 例如,句子[一个是水果,另一个是蔬菜]可以分为[苹果] [和] [番茄] [一个] [是] [水果] [一个] [是] [蔬菜]. 在此步骤中,需要SCWS的帮助. 正常安装分词系统后,分词操作仅需要一项功能. 就这么简单!此外,除了分解单词外,还必须获得名词,动词等单词的属性.
步骤4: 关键字的同义词替换
这里需要知识库的支持,请下载“哈尔滨工业大学信息检索实验室同义词西林”的扩展版,其中收录非常完整的同义词列表,每个单词都有多个代码,这意味着该单词是多义的,一个代码下面有多个单词,表示这些单词是同义词,请阅读它们并将其保存在数据库中以备后用. 本文来自Dream Weaving
根据相关字段设置关键字. 例如,如果您是房地产网站,则您的关键字可能是租赁,出租,二手房,购买房屋,住房合同,并在该字段单词中找到许多关键点,然后根据同义词词林. 为什么只替换关键字?因为替换了非关键字部分,所以可能会导致奇异性,并且它不是字段中的单词,并且权重不如字段关键字高. 丧失使句子流利的伪原创性,所获得的收益不值得损失.
第5步: 标点符号乱舞
文章相似度的计算是基于句子相似度,而句子相似度是根据单词相似度来计算的,因此即使将关键字替换为同义词,仍将判断文章和原创文本是我该怎么办类似的文章?首先,让我们看一下如何计算文章相似度.
前面提到的同义词Cilin的编码实际上是很有知识的,而不是随机码. 同义词Cilin的扩展版本使用代码来识别单词的含义. 该代码可分为5部分. 它们是大类别,中类别,小类别,单词组,原子单词组,例如学生和老师. 这两个词必须属于一个大类别,因为它们都是人,而西红柿和西红柿必须是一个词组,因为它们是指一件事. 这样,相似度的计算就很简单. 同样按100计算. 如果主要类别相同,则为10;如果中间类别再次相同,则为20;如果较小类别再次相同,则为50. 相同为90;如果原子词组相同还是一样,就是100. 为什么在这里使用“ re”一词,因为只要其中之一不同,就不需要比较它们. 例如,两个具有不同主要类别(中类别和次要类别)的单词肯定是不同的.
在此处比较两篇文章中出现在句子中的单词的相似度,计算每个句子的相似度,然后计算文章的相似度. 这涉及到一种类似于Google PR算法的算法,该算法由贡献计算相似度叠加.
那么,我们该怎么办?我们必须打乱标点符号并干扰搜索引擎的句子处理. 内容来自下标
人们阅读文章,尤其是新闻或信息时,通常不会在意标点符号. 有些人甚至只是粗略地看了一眼. 即使句子令人困惑,该文章的总体思路也不会有问题,因此我们应该自由撰写该文章. 句号和逗号可以随意替换,这会影响搜索引擎的句子分段,从而影响到相似度计算.
第6步: 在段落开头创建摘要
本文的内容越重要,毫无疑问,因此我们需要对文章进行总结,并将其放在文章的顶部. 摘要必须具有一定的压缩率,例如一篇1000字的文章,一篇100字的文章. 摘要就足够了,这里不按字数计算,更方便按句子数计算,因为我们已经处理了文章的句子. 对于500个句子的文章,请执行大约20个句子的摘要. 摘要的核心是选择摘要语句,因为摘要本身就是让人们理解其一般含义,因此可以接受一些语义障碍.
我之前提到过关键字. 提取摘要也需要关键字. 我们按权重提取抽象句子. 收录关键字的句子具有较高的权重. 数字越多,权重越高. 我们计算每个句子的权重. 然后根据原创文本的顺序,按权重顺序提取它们,直到提取出所需的句子数为止. 将它们缝合在一起,成为文章的摘要.
我们可以在这里做得更好. 在Internet上找到句子相似度计算算法,计算句子相似度,删除相似句子,并防止语义重复. 因为收录许多关键字的句子很可能意味着重复.
第7步: 定制的标题织梦内容管理系统
伪原创非常重要的一点是更改标题. 标题必须更改. 根据相似度计算算法,我们必须将标题更改为全新的标题. 例如,将[高考10笔]更改为[高考10笔]. 更改法律,您只是将百度视为***. 您如何更改?你会胡说八道吗? [专家给您十分帮助您准备高考] [做这十个项目,并在高考中获得满分] [清华大学距离您只有十步之遥!]这些头衔的含义并没有改变了,但是点击非常吸引人,搜索引擎不会找到相同的文章. 不错?好梦编织,好梦编织
第8步: 破坏权重较低的句子的顺序
低权重的句子也可以派上用场. 尽管我们认为这些句子不是很重要,但是搜索引擎并不知道. 我们稍微调整了它们的顺序,这不影响语义,但具有伪原创效果. 好吧.
对于当前的伪原创软件,不建议无序地破坏句子的顺序. 例如,一篇文章介绍了10种软件,并且标记了1、2、3和4的顺序. 在伪原创之后,顺序被弄乱了,读者将以一种难以置信的方式阅读它. 本文介绍了从本地范围开始加扰的句子加扰,全部都是非关键句子.