php网页抓取乱码(PHP获取网页内容的方法实现方法和使用方法)
优采云 发布时间: 2022-01-23 21:21php网页抓取乱码(PHP获取网页内容的方法实现方法和使用方法)
5、网址链接千奇百怪,竟然有汉字,有的甚至还有回车换行
6、有的网站HTTP头中有一个Content-Type,网页中有几个Content-Type。更重要的是,每个 Content-Type 都不相同。最极端的是这些Content-Type可能不是body中使用的Content-Type,导致乱码
7、网络链接很慢,花时间分析几千页,建议大家好好吃饭
如何在 PHP 中获取网页内容
一、 方法是使用 file_get_contents 方法实现的
$url = "http://news.sina.com.cn/c/nd/2016-10-23/doc-ifxwztru6951143.shtml";
$html = file_get_contents($url);
//如果出现中文乱码使用下面代码
//$getcontent = iconv("gb2312", "utf-8",$html);
echo "".$html."";
二、 方法是使用 curl 实现的
添加这段代码意味着如果请求被重定向,则可以访问最终的请求页面,否则请求的结果将显示如下:
<p>Object moved
Object MovedThis object may be found