php实现的采集小程序,做采集的必看

优采云 发布时间: 2020-07-25 08:02

  

  以下是我收集的php实现的采集小程序,自己测试可用php 文章采集,做采集很实用哦!

  <?php

//调用方法 :localhost/2.php?id=1 (自动采集1-8的列表)

header(&quot;Content-type:text/html;charset=utf-8&quot;);

$con =mysql_connect(&quot;localhost&quot;, &quot;root&quot;, &quot;huweishen.com&quot;) or die(&quot;数据库链接错误&quot;);

mysql_select_db(&quot;liuyan&quot;, $con);

mysql_query(&quot;set names &#39;utf8&#39;&quot;);

function preg_substr($start, $end, $str) // 正则截取函数

{

$temp = preg_split($start, $str);

$content = preg_split($end, $temp[1]);

return $content[0];

}

function str_substr($start, $end, $str) // 字符串截取函数

{

$temp = explode($start, $str, 2);

$content = explode($end, $temp[1], 2);

return $content[0];

}

// ---------------- 使用实例 ----------------

if($_GET[&#39;id&#39;]<=8&amp;&amp;$_GET[&#39;id&#39;]){

$id=$_GET[&#39;id&#39;];

$url = &quot;http://www.037c.com/New/list_5_$id.html&quot;; //目标站

$fp = fopen($url, &quot;r&quot;) or die(&quot;超时&quot;);

$fcontents = file_get_contents($url);

$pattern=&quot;/<\/span><a href=\&quot;(.*)\&quot; title=\&quot;(.*)\&quot; target=\&quot;_blank\&quot;>/iUs&quot;;//正则

preg_match_all($pattern, $fcontents, $arr);

//print_r($arr);

foreach($arr[1] as $k=>$url)

{

$title = iconv(&#39;GB2312&#39;, &#39;UTF-8&#39;, addslashes($arr[2][$k]));

// echo $title;

// echo $url;

$str = iconv(&quot;GB2312&quot;,&quot;UTF-8&quot;, file_get_contents($url));

$author = preg_substr(&quot;/作者:/&quot;, &quot;/<\//&quot;, $str); // 通过正则提取作者

$content = str_substr(&#39;<p class=&quot;wltg&quot;>&#39;, &#39;</p>&#39;, $str); //通过字符串提取标题

$sql = &quot;INSERT INTO `caiji` (`title`, `url` , `content`, `author` ) VALUES (&#39;$title&#39;, &#39;$url&#39; , &#39;$content&#39; , &#39;$author&#39;)&quot;;

// echo $sql.&quot;<br/>&quot;;

mysql_query($sql);

}

$id++;

echo &quot;正在采集URL数据列表$id...请稍后...&quot;;

echo &quot;<script>window.location=&#39;2.php?id=$id&#39;</script>&quot;;

}

else{

echo &quot;采集数据结束。&quot;;

}

?>

  

  其中 title 设置惟一php 文章采集,可以避免重复采集,很好的的一个php采集小程序,作者:风云无忌

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线