php 伪原创词库(怎么检查一篇文章的原创度获取源代码?访问函数源代码)

优采云 发布时间: 2021-09-25 12:13

  php 伪原创词库(怎么检查一篇文章的原创度获取源代码?访问函数源代码)

  前言

  去年我写了一个PHP伪原创工具,但有时我需要在伪原创之后检查文章>原创>的程度,换句话说,搜索引擎上是否有类似的文章@>

  

  百度搜索被用作此原创@>度检测的源代码

  首先,把百度搜索的URL放在一起,百度将搜索词限制在38个汉字以内,其他的将被丢弃

  关键词

  那么,现在有了百度搜索网址,那么如何检查一个文章>的原创>度呢?

  Phpcurl访问函数源代码

  function curl($url){ $ch = curl_init(); curl_setopt($ch, CURLOPT_URL,$url); curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false); curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false); $httpheader[] = "Accept:*/*"; $httpheader[] = "Accept-Encoding:gzip,deflate,sdch"; $httpheader[] = "Accept-Language:zh-CN,zh;q=0.8"; $httpheader[] = "Connection:close"; curl_setopt($ch, CURLOPT_HTTPHEADER, $httpheader); curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0'); curl_setopt($ch, CURLOPT_ENCODING, "gzip"); curl_setopt($ch, CURLOPT_RETURNTRANSFER,1); $ret = curl_exec($ch); curl_close($ch); return $ret; }

  首先,删除文章@>的所有HTML标记,然后需要使用以下代码删除无用的HTML和字符

  function ClearHtml($str){ $str = trim($str); $str = strip_tags($str,""); $str = preg_replace("/\t/","",$str); $str = preg_replace("/\r\n/","",$str); $str = preg_replace("/\r/","",$str); $str = preg_replace("/\n/","",$str); $str = preg_replace("/ /","",$str); $str = preg_replace("/ /","",$str); return trim($str); }

  然后,重组后的文章@>应分成38个汉字的数组,使用的代码为

  function mbStrSplit ($string, $len=38) { $start = 0; $strlen = mb_strlen($string); while ($strlen) { $array[] = mb_substr($string,$start,$len,"utf8"); $string = mb_substr($string, $len, $strlen,"utf8"); $strlen = mb_strlen($string); } return $array;}

  如果您的PHP环境是PHP7.4,您可以直接使用以下内置函数将文章@>分成38个汉字作为一个组,但我在这里使用的是上面的一个,目前还没有构建最新的PHP环境

  mb_str_split ( string $string [, int $split_length = 1 [, string $encoding = mb_internal_encoding() ]] ) : array注:https://www.php.net/manual/zh/function.mb-str-split.php

  以下是文章>中38个汉字之一的原创>学位获取源代码。我不会一一解释的。我觉得我这里的代码不是很好。如果你已经优化了,请回复。多谢各位

  function bdycl($content){$info=curl('https://www.baidu.com/s?ie=utf8&wd='.urlencode($content));preg_match_all("/(.*?)(.*?)href=\"(.*?)\"/is", $info,$baidu);$count1=count($baidu['1']);for($i=0;$i1){ $baiduem=''; foreach($baidu_em[1] as $value){ $baiduem.=$value; } $bdem[]=[ 'content'=>$baiduem, 'url'=>$baidu['3'][$i] ]; }else{ $bdem[]=[ 'content'=>@$baidu_em[1][0], 'url'=>$baidu['3'][$i] ]; }}if(is_array($bdem)){ $count=count($bdem); $in=[]; for($i=0;$i90){ $in[]=[ 'similar'=>$ii, "content"=>$bdem[$i]['content'], 'url'=>$bdem[$i]['url'] ]; } } array_multisort(array_column($in,'similar'),SORT_DESC,$in); if(isset($in['0'])){ $in=$in['0']; } return ['similar'=>(100-array_sum($similar)/count($bdem)),'content'=>$in];}}

  

  单原创@>度检测

  我们已经完成了一组38个汉字的书写。现在我们需要查询多个组。下面是源代码

  function ycl($content){ $info=mbStrSplit($content); $count=count($info)-1; if($count$str]; }

  然后在网上随便找一篇文章文章@>,测试结果如下:

  

  好了,就这样。谢谢收看

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线