原创智能优化,原创度检查,一键采集,文章组合(关键词phpcurl访问函数源代码好了怎么检查一篇文章的原创度)

优采云 发布时间: 2021-09-24 08:04

  原创智能优化,原创度检查,一键采集,文章组合(关键词phpcurl访问函数源代码好了怎么检查一篇文章的原创度)

  前言

  去年我写了一个PHP伪原创工具,但有时我需要在伪原创之后检查文章和原创的程度,换句话说,搜索引擎上是否有类似的文章

  度检测源的生成取决于百度搜索

  首先,把百度搜索的URL放在一起,百度将搜索词限制在38个汉字以内,其他的将被丢弃

  关键词

  PHP curl访问函数源代码

  function curl($url){

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL,$url);

curl_setopt($ch, CURLOPT_SSL_VERIFYPEER, false);

curl_setopt($ch, CURLOPT_SSL_VERIFYHOST, false);

$httpheader[] = "Accept:*/*";

$httpheader[] = "Accept-Encoding:gzip,deflate,sdch";

$httpheader[] = "Accept-Language:zh-CN,zh;q=0.8";

$httpheader[] = "Connection:close";

curl_setopt($ch, CURLOPT_HTTPHEADER, $httpheader);

curl_setopt($ch, CURLOPT_USERAGENT,'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/65.0.3314.0 Safari/537.36 SE 2.X MetaSr 1.0');

curl_setopt($ch, CURLOPT_ENCODING, "gzip");

curl_setopt($ch, CURLOPT_RETURNTRANSFER,1);

$ret = curl_exec($ch);

curl_close($ch);

return $ret; }

  那么,现在有了百度搜索的网址,那么如何检查一个原创度的文章

  首先,要删除文章文章的所有HTML标记,需要使用以下代码

  function ClearHtml($str)

{

$str = trim($str);

$str = strip_tags($str,"");

$str = preg_replace("/\t/","",$str);

$str = preg_replace("/\r\n/","",$str);

$str = preg_replace("/\r/","",$str);

$str = preg_replace("/\n/","",$str);

$str = preg_replace("/ /","",$str);

$str = preg_replace("/ /","",$str);

return trim($str);

}

  然后,重组后的文章应被分成38个汉字的数组,使用的代码为

  mb_str_split ( string $string [, int $split_length = 1 [, string $encoding = mb_internal_encoding() ]] ) : array

注:https://www.php.net/manual/zh/function.mb-str-split.php

  以下是文章>中38个汉字之一的原创>学位获取源代码。我不会一一解释的。我觉得我这里的代码不是很好。如果你已经优化了,请回复。多谢各位

  function bdycl($content){

$info=curl('https://www.baidu.com/s?ie=utf8&wd='.urlencode($content));

preg_match_all("/(.*?)(.*?)href=\"(.*?)\"/is", $info,$baidu);

$count1=count($baidu['1']);

for($i=0;$i1){

$baiduem='';

foreach($baidu_em[1] as $value){

$baiduem.=$value;

}

$bdem[]=[

'content'=>$baiduem,

'url'=>$baidu['3'][$i]

];

}else{

$bdem[]=[

'content'=>@$baidu_em[1][0],

'url'=>$baidu['3'][$i]

];

}

}

if(is_array($bdem)){

$count=count($bdem);

$in=[];

for($i=0;$i90){

$in[]=[

'similar'=>$ii,

"content"=>$bdem[$i]['content'],

'url'=>$bdem[$i]['url']

];

}

}

array_multisort(array_column($in,'similar'),SORT_DESC,$in);

if(isset($in['0'])){

$in=$in['0'];

}

return ['similar'=>(100-array_sum($similar)/count($bdem)),'content'=>$in];

}

}

  

  我们已经完成了一组38个汉字的书写。现在我们需要查询多个组。下面是源代码

  function ycl($content){

$info=mbStrSplit($content);

$count=count($info)-1;

if($count$str];

}

  

  好了,就这样。谢谢收看

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线