[转] PHP:自己动手制做伪原创程序
优采云 发布时间: 2020-08-11 23:34原创是网站优化的一大法宝,下面将讲解怎样在PHP环境下,开发一个基于PHP的伪原创的写作软件程序。本文将觉得读者易传具有PHP的知识,所以不再给出PHP教程。
教程环境:
1、PHP
2、MYSQL织梦好,好织梦
3、SCWS动词系统
类似PHP脚本,类似MYSQL数据库,类似动词系统亦可,在此只提供思路。
第一步:配置好你的环境!织梦内容管理系统
在此须要做的是下载SCWS剖析系统,按照官方的教程安装此系统,并且测试通过。其他的后台脚本,数据库就不多说了。SCWS是设计给C语言使用的,也为PHP做了扩充库,你也可以使用C语言制做你的伪原创程序。本文来自织梦
第二步:获取文章,肢解文章织梦好,好织梦
所谓分尸文章,就是将文章分句,分句须要自己写程序进行,我提供一个思路:以句号、感叹号、问号为分句标示,以上破折号,左括弧,左书名号等位起始符,以右冒号、右括弧、右书名号为结束符。遍历文章,当遇见起始符则步入不可分句状态,遇到结束符则退出此状态,当遇见分句标示时,仅当当前为可分句状态是,将读取到的内容分为一句,以此循环,将文章肢解问一个一个的诗句。在此做分句状态的目的,是为了保护坐落括弧、引号、书名号等一段内容内的分句标示,例如【他说:“*敏*感*词*。”】这里的【*敏*感*词*。】不会被误分解。
第三步:分词织梦好,好织梦
将分解的诗句进一步分尸,得到动词。例如【苹果与水芹一个是猕猴桃一个是水果】这个短语可以分为【苹果】【与】【西红柿】【一个】【是】【水果】【一个】【是】【蔬菜】,在这个步骤中,需要SCWS的帮助,正常安装此动词系统后,分词操作只须要一个函数。就这个简单!另外,除了分解出成语之外,还要获得成语的性质,例如名词、动词等。
第四步:关键词同义替换
在此须要一个知识库的支持,下载《哈工大信息检索实验室同义词词林》扩展版,里面是十分全的同义词大全,每个词有多个编码,代表该词多义,一个编码下有多个词,表示这种词是同义词,将她们读取并保存到数据库中备用。本文来自织梦
根据相关领域,设置你的关键词,例如你是做房产类网站,那么你的关键词可能是租房,出租,二手房,买房屋,房屋协议,要找出好多的该领域的关键词,然后按照同义词词林对它们进行替换。为什么只替换关键词呢?因为一个非关键词部份替换了,可能会导致奇特,而且不是该领域的词,权重没有领域关键词权重高,损失句子通顺度来做伪原创,得不偿失。
第五步:标点乱舞
文章相似度的估算是按照语句相似度估算的,句子的相似度又是按照词相似度估算下来的,所以虽然更换了关键词为同义词,所得到的文章与原文还是会被判断为相像文章,怎么办呢?首先我们瞧瞧怎样进行文章相似度估算。
前面说的同义词词林的编码,其实这上面大有学问,不是随意乱编的码,同义词词林的拓展版将一个词的词性,用一个编码标示,编码可分为5部份,分别是大类、中类、小类、词群、原子词群,例如中学生和老师,这两个词,肯定是属于一个大类的,因为她们都是人,而番茄和茄子,肯定是一个词群的,因为她们指的就是一个东西。那么相似度的估算就简单了,按照100为完全相同来估算,若大类相同,则为10,若中类再相同,则为20,若小类再相同,则为50,若词群再相同则为90,若原子词群再相同,则为100。这里为何要用“再”字,因为只要其中有一个不同,则无需再对比下去,例如大类都不同的两个词,中类,小类肯定不同了。
在此对比两个文章中的一个语句出现的词的相似度,计算每位语句的相似度,进而估算文章相似度,这里涉及一个算法,类似google的PR算法,以贡献度来叠加估算相似度。
说了这么多,我们该怎么做,我们要搅乱标点符号,干扰搜索引擎的分句处理。内容来自dedecms
人看文章时,特别是新闻或则资讯,一般不在乎标点符号,甚至有些人只是一眼而过简略的看,即使断句混乱,文章大意不会有任何问题,所以我们要随便的将文章中的句号和冒号随便的替换,这样影响搜索引擎对文章进行分句,从而影响其相似度估算。
第六步:建立摘要放在段首
文章越靠前的内容越重要,这点毋庸置疑,所以我们须要对文章进行摘要,置于文章顶部,摘要的制做要有一定的压缩率,如1000字的文章,做100字的摘要即可,这里不按字数来统计,按语句数来统计比较便捷,因为我们早已对文章进行了分句处理。500句规模的文章,做20句摘要左右。摘要的核心在于选定摘要语句,因为摘要本身是使人了解个大约意思,所以又这么一点点语义不通是可以承受的。
前面说过了关键词,提取摘要也须要关键词,我们以权重的方法提取摘要句,收录关键词的诗句,权重高,收录的数目越多,权重越高,以此估算出每位语句的权重。然后按照原文的次序,按权重高低次序将她们提取下来,直到提取够你所须要的句数为止。将她们拼接,成为文章的文摘。
在此还可以做的更好一些,在网上找语句相似度估算算法,计算短语相似度,将相似句剔除,防止语义重复。因为收录好多关键词的诗句很有可能意思是重复的。
第七步:标题的自定义织梦内容管理系统
伪原创很重要的一点就是改标题,标题一定要改,根据相似度估算的算法,我们改标题一定要改得焕然一新,例如【高考10招】改成【高考十招】,这种改法,你简直是把百度当***了。那要如何改呢?编反话你会不?【专家十点建议,助你迎战中考】【做到这十项,高考得满分】【清华距你只有十步!】改成这种标题意思没变,但是太吸引人去点击,并且不会被搜索引擎发觉是雷同文章。不错把?织梦好,好织梦
第八步:打乱权重较低的诗句的次序
权重低的诗句也能派上用场,虽然我们觉得这种语句不是很重要,但是搜索引擎可不知道,我们把她们的次序稍为搅乱,并不影响语义,反而起到了伪原创的疗效,很好。
对于目前的伪原创软件,无章法的搅乱语句次序,是不可取的。例如一篇文章介绍了10个软件,已经标记好了1、2、3、4的次序,经过伪原创以后,顺序乱了,读者读起来就匪夷所思了。而本文介绍了语句搅乱,是从局部范围内搅乱,而且都是非关键句。