网站内容抓取以人教版地理七年级地理上册为例子(上册)

优采云发布时间: 2021-05-01 22:29

　　我需要写一个这样的例子，并从电子教科书网站上下载一本电子书。

　　电子教科书网络上的电子书将书的每一页都当作一幅图片，然后一本书有很多图片。我需要分批下载图片。

　　这是代码部分：

public function download() {

$http = new \Org\Net\Http();

$url_pref = "http://www.dzkbw.com/books/rjb/dili/xc7s/";

$localUrl = "Public/bookcover/";

$reg="|showImg$'(.+)'$;|";

$i=1;

do {

$filename = substr("000".$i,-3).".htm";

$ch = curl_init();

curl_setopt($ch, CURLOPT_URL, $url_pref.$filename);

curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);

curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, 10);

curl_setopt($ch, CURLOPT_FOLLOWLOCATION, 1);

$html = curl_exec($ch);

curl_close($ch);

$result = preg_match_all($reg,$html,$out, PREG_PATTERN_ORDER);

if($result==1) {

$picUrl = $out[1][0];

$picFilename = substr("000".$i,-3).".jpg";

$http->curlDownload($picUrl, $localUrl.$picFilename);

}

$i = $i+1;

} while ($result==1);

echo "下载完成";

}

　　我在这里以《人民教育版地理》七年级的地理书为例。

　　网页从00 1. htm开始，然后这个数字一直在增加

　　每个网页中都有一张图片，与教科书的内容相对应。教科书的内容以图片的形式显示

　　我的代码是一个循环，从首页开始，直到找不到网页中的图片为止

　　抓取网页内容后，将网页中的图片抓取到本地服务器上

　　爬行后的实际效果：

　　以thinkphp编写的示例：获取网站的内容并将其保存在本地。更多相关的文章 python获取网页中的图片并将其保存在本地

　　＃-*-coding：utf-8-*-import os import uuid import urllib2 import cookielib'''获取文件扩展名'''def get_file ...

　　C＃实现抓取网站页内容

　　抓住的新闻部分，如下图所示：使用Google浏览器查看源代码：通过分析，我们知道我们所寻找的内容在以下两个标签之间：

0

2021-05-01

网站内容抓取

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取以人教版地理七年级地理上册为例子(上册)

0 个评论

发起人

AI时代内容工厂

网站内容抓取 以人教版地理七年级地理上册为例子(上册)

0 个评论

发起人

相关问题

网站内容抓取以人教版地理七年级地理上册为例子(上册)