网站内容抓取 以人教版地理七年级地理上册为例子(上册)
优采云 发布时间: 2021-05-01 22:29网站内容抓取 以人教版地理七年级地理上册为例子(上册)
我需要写一个这样的例子,并从电子教科书网站上下载一本电子书。
电子教科书网络上的电子书将书的每一页都当作一幅图片,然后一本书有很多图片。我需要分批下载图片。
这是代码部分:
public function download() {<br />
$http = new \Org\Net\Http();<br />
$url_pref = "http://www.dzkbw.com/books/rjb/dili/xc7s/";<br />
$localUrl = "Public/bookcover/";<br />
$reg="|showImg\('(.+)'\);|";<br />
$i=1;
do {<br />
$filename = substr("000".$i,-3).".htm";<br />
$ch = curl_init();<br />
curl_setopt($ch, CURLOPT_URL, $url_pref.$filename);<br />
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);<br />
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);<br />
curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);<br />
$html = curl_exec($ch);<br />
curl_close($ch);
$result = preg_match_all($reg,$html,$out, PREG_PATTERN_ORDER);<br />
if($result==1) {<br />
$picUrl = $out[1][0];<br />
$picFilename = substr("000".$i,-3).".jpg";<br />
$http->curlDownload($picUrl, $localUrl.$picFilename);<br />
}<br />
$i = $i+1;<br />
} while ($result==1);
echo "下载完成";<br />
}
我在这里以《人民教育版地理》七年级的地理书为例。
网页从00 1. htm开始,然后这个数字一直在增加
每个网页中都有一张图片,与教科书的内容相对应。教科书的内容以图片的形式显示
我的代码是一个循环,从首页开始,直到找不到网页中的图片为止
抓取网页内容后,将网页中的图片抓取到本地服务器上
爬行后的实际效果:
以thinkphp编写的示例:获取网站的内容并将其保存在本地。更多相关的文章 python获取网页中的图片并将其保存在本地
#-*-coding:utf-8-*-import os import uuid import urllib2 import cookielib'''获取文件扩展名'''def get_file ...
C#实现抓取网站页内容
抓住的新闻部分,如下图所示:使用Google浏览器查看源代码:通过分析,我们知道我们所寻找的内容在以下两个标签之间: