直观:php采集内容中带有图片地址的远程图片并保存的方法_
优采云 发布时间: 2022-10-19 03:10直观:php采集内容中带有图片地址的远程图片并保存的方法_
“如何在PHP中保存带有图像地址的远程图片
采集 content_“由会员共享,可以在线阅读,更多相关”如何在PHP采集 content_(5页采集版)中保存带有图片地址的远程图片“请在人文图书馆在线搜索。
1.PHP 采集带有图像地址的远程图片并保存methods_本文章主要介绍PHP中带有图片地址的远程图片采集内容和保存的方法,可实现采集和保存远程图片的功能,
这是一个特别有用的技能,需要它的同伴可以参考以下内容 本文解释并描述了在PHP中保存带有图片地址的远程图片的方法采集内容。与大家分享,供大家参考。具体实现方法如下:代码如下:函数my_file_get_contents($url,$timeout=30) 如果( function_exists(curl_init) ) $ch = curl_init();curl_setopt($ch、curlopt_url、$url);
2、 curl_setopt($ch、curlopt_returntransfer、1); curl_setopt($ch、curlopt_connecttimeout、$timeout); $file内容 = curl_exec($ch); curl_close ($ch); 如果 (ini_get(allow_url_fopen) = 1 || ini_get allow_url_fopen$file$file内容 = file_get_contents($url $file);
3、$file内容退货;代码如下:函数 get_remote($body,$title) $img_数组 = 数组();$img路径 = 实路径(y//月//上文件/新闻/)./.date(y/m/d/);/采集远程图像保存地址 /die($img路径); $img路径=/上文件/新闻/.日期(y/m/d/); /设置访问地址 $body = 条带斜杠($body); preg_match_all $img ||
4、ay = array_unique($img数组2); $key$img数组 = $value) $get文件 = my_file_get_contents($value,60); $filetime = 时间(); $filename = 日期(ymdhis,$filetime). rand(1,999).substr($value,-3,3); if(空空($get文件) 睡眠 (10); $get文件 = my_file_get_contents($value,30 $g);
5、et_file) $body = preg_replace($value,/)./isu, /未发现.jpg, $body);继续;if(!emptyempty($get_file) if( mkdirs($img_path) ) $fp = fopen($img_path.$filename,w);如果($fp,$get文件) $body = preg_replace(/.addcslashes,$value,/)./isu, $img_rpath.$filename, $body); $fp $body = str_replace(img,img ,$body); 返回$body; 函数 mkdirs($dir) 如果 (!is_dir($dir) 如果 (!mkdir($dir) 返回假; 如果 (!mkdir($dir,0777) 返回假;/的用法如下:$str =法斯多夫达菲赛姆 src= /;回声get_remote($str,图片);我希望这篇文章会对你的PHP编程感兴趣。有关更多信息,请参阅 IT 技术专栏
推荐方法:Dedecms采集功能的使用方法 --- 不含分页的普通文章(一)
前言:这个文章是写给刚接触Dedecms采集功能的朋友。选择的目标站点是文章Dedecms官方网站dreameaver column文章,其内容页面不收录分页。它详细介绍了如何创建基本 采集 规则。本文分为三部分:第一部分主要介绍如何进入采集界面以及添加新采集节点的第一步:设置基本信息和URL索引页面规则;第二部分,主要是引入新的采集节点的第二步:设置字段获取规则;第三节主要介绍采集如何指定节点以及如何导出采集内容。进入下面的第一部分。
1.1 进入采集节点管理界面
如图(图1),在后台管理界面主菜单中点击“采集”,然后点击“采集节点管理”进入采集节点管理界面,如图2所示。
(此图来源于网络,如有侵权,请联系删除!)
图 1 - 后台管理界面
(此图来源于网络,如有侵权,请联系删除!)
图2-采集节点管理界面
1.2. 添加新节点
在采集节点管理界面,点击左下角“添加新节点”或右上角“添加新节点”(如图2),进入“选择内容模型”界面,如(图3)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 3 - 选择内容模型界面
在“选择内容模型”界面的下拉列表框中,有“普通文章”和“图片采集”可供选择。根据页面类型为采集,选择对应的内容模型。在本文中,选择“普通文章”,点击确定,即可进入“添加采集节点:第一步:设置基本信息和URL索引页面规则”界面,如图(图4 ) 节目,
(此图来源于网络,如有侵权,请联系删除!)
图4 - 添加采集节点:第一步设置基本信息和URL索引页面规则
1.2.1 设置节点基本信息
(此图来源于网络,如有侵权,请联系删除!)
图 5 - 节点基本信息
如(图5)所示,
节点名称:给新创建的节点起一个名字,这里填写“采集Test(1)”;
目标页面编码:设置目标页面的编码格式为采集,有GB2312、UTF8、BIG5三种。可以通过在采集目标页面上右击选择“查看源代码”来获得。
脚步:
(a) 打开 采集: 所针对的目标页面;
(b) 右击选择“查看源文件”,找到“charset”,如图(图6),
(此图来源于网络,如有侵权,请联系删除!)
图 6 - 查看源文件
等号后面的代码就是想要的“编码格式”,这里是“gb2312”。
“区域匹配模式”:设置如何匹配想要的采集的内容部分,可以是字符串,也可以是正则表达式。系统默认模式为字符串。如果您对正则表达式了解更多,可以在此处选择正则表达式的模式。
“内容导入顺序”:指定 文章 列表的导入顺序。可以选择“与目标站一致”或“与目标站相反”。
“热链接模式”:目标站点 采集 没有刷新限制。一开始很难说,你需要测试才能知道。如果是这样,您需要在此处设置“资源下载超时时间”。
“参考 URL”:填写将是 采集 的任何 文章 内容页面的 URL。
具体步骤:
(a) 在打开的文章列表页面,点击第一个文章
标题“Adding Transparency to Inserted Flash in Dreamweaver”打开文章内容页面如图(图7),
(此图来源于网络,如有侵权,请联系删除!)
图 7 - 文章 内容页面
(b) 此时浏览器的URL地址栏中显示的URL就是“参考URL”处需要填写的URL,如图(图8)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 8 - 浏览器的 URL 地址栏
至此,“节点基本信息”设置完毕。最终结果,如(图9)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 9 - 设置后节点的基本信息
检查后,进入下一步。
1.2.2 设置列表URL获取规则
如(图 10)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 10 - 列出 URL 获取规则
下面是设置采集的文章列表页的匹配规则。如果采集的文章列表页有一定规则,可以选择“批量生成列表URL”;如果采集的文章列表页面完全没有规则可循,则可以选择“手动指定列表URL”;如果采集 提供的站点提供RSS,您可以选择“从RSS 获取”。对于特殊情况,例如:有些列表页面是规则的,而有些是不规则的,您可以在“匹配 URL”中填写规则部分,然后在“手动指定 URL”中填写不规则部分。
具体步骤:
(a) 首先,回到打开的文章列表页面,找到浏览器的URL地址栏显示的URL(图8)和页面底部的换页部分。如(图 11)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 11 - 页面提要
(b) 点击“2”打开文章列表页的第二页。此时浏览器的URL地址栏中显示的URL和页面底部的页面变化部分,如(图12)和(如图13),
(此图来源于网络,如有侵权,请联系删除!)
图 12 - 第二页的 URL
(此图来源于网络,如有侵权,请联系删除!)
图 13 - 第二页的换页部分
(c) 在打开的文章列表页面的第二页,点击(1)打开文章列表页面的第一页,页面底部的换页部分是同图11。浏览器的URL地址栏显示的URL和上图8不一样,如图(图14),
(此图来源于网络,如有侵权,请联系删除!)
图 14 - 第一个页面的 URL
(d) 由(b)和(c)推断,这里采集的文章列表页的URL遵循的规则是:
(*).html。为了安全起见,请为自己测试更多列表页面。规则确定后,在“匹配网址”中,填写规则后跟文章列表页。
(e) 最后指定需要采集的页码或常规号,并设置其递增规律。
至此,“List URL获取规则”部分就设置好了。最终结果,如图(图 15)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 15 - 设置后的 URL 获取规则列表
确认无误后,进行下一步。
1.2.3 设置文章 URL匹配规则
如(图 16)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 16 - 文章 URL 匹配规则
下面是设置采集文章列表页的匹配规则。
具体步骤:
(a) 对于“区域开头的 HTML”,右键单击打开的 文章 列表的第一页并选择“查看源代码”。在源文件中,找到第一个文章的标题“在Dreamweaver中为插入的Flash添加透明度”,如图(图17),
(此图来源于网络,如有侵权,请联系删除!)
图 17 - 查看源文件中第一个 文章 的标题
通过观察,不难看出“
” 是整个 文章 列表的开头。因此,在“HTML开头区域”中,填写“
”。
(b) 在源文件中找到最后一个文章标题“使用Dreamweaver设计网页时组织CSS的建议”,如图(图18),
(此图来源于网络,如有侵权,请联系删除!)
图 18 - 查看源文件中最后一个 文章 的标题
结合 文章 列表的开头并观察第一个 "
" 是整个 文章 列表的结尾。因此,在“HTML 结尾区域”中,应该用 "
”。
“如果链接中收录图片”:设置对链接中收录的图片的处理方式。有不处理和 采集 是缩略图的选项。可根据实际需要选择。
“重新过滤区域URL”:可以使用正则表达式重新过滤区域网站,对于一些需要保留或过滤掉的内容,尤其是混合列表页面,使用“必须收录”或“不得收录”过滤掉您想要或不想获取的 文章 内容页面的 URL。
具体步骤:
回到打开文章列表首页的源文件,观察可以看出每个文章内容页面地址的扩展名都是.html。因此,在“必须收录”中,填写“.html”。
至此,“文章URL匹配规则”就设置好了。最终结果,如(图 19)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 19 - 文章 设置后的 URL 匹配规则
通过第 1.2.1、1.2.2 和 1.2.3 节,已经设置了添加 采集 节点的第一步。设置后的结果,如图(图20),
(此图来源于网络,如有侵权,请联系删除!)
图20 - 设置后新增采集节点:第一步设置基本信息和URL索引页面规则
全部完成并勾选后,点击“保存信息并进入下一步”。如果前面设置正确,点击后会进入“添加采集节点:测试URL索引页面规则设置的基本信息和URL获取规则测试”页面,看到对应的文章列表地址. 如(图 21)所示,
(此图来源于网络,如有侵权,请联系删除!)
图 21 - URL 获取规则测试
确认无误后,点击“保存信息并进入下一步”。否则,单击“返回上一步进行更改”。
到这里,第一节就结束了。进入下面的第二部分。. .
上一篇:Dedecms采集功能如何使用---普通文章不用分页(二)
下一篇:普通文章的dedecms采集功能怎么用---采集带分页(三)
免责声明:本站所有文章及图片均由用户分享并采集自互联网。文章及图片版权归原作者及来源所有。仅供学习参考,请勿用于商业用途。如果您的权利受到侵犯,请联系网站客服。