网页视频抓取脚本(网络爬虫技术被称为网络蜘蛛或者网络机器人,难度也有所不同)
优采云 发布时间: 2021-11-11 15:02网页视频抓取脚本(网络爬虫技术被称为网络蜘蛛或者网络机器人,难度也有所不同)
编程要求:
网络爬行技术被称为网络蜘蛛或网络机器人,是指根据一定的规则自动在网络上抓取的程序或脚本数据。比如我们在网上找了很多图片或者很多视频资料。当然你可以用鼠标一个一个的下载,但是会消耗大量的时间和精力也是可以理解的。此时,我们需要一个脚本,可以自动抓取网络内容,自动抓取网络图片或连接,自动批量下载。当然,根据网络数据抓取的深度和数据的复杂程度,设计一个网络爬虫的难度也不同。
脚本源代码:
#!/bin/bash
#功能说明:编写脚本抓取单个网页中的所有图片
#需要获取的网页的网页链接*敏*感*词*和*敏*感*词*URL文件名
页=“页地址”
URL="/tmp/spider_$$.txt" #在哪里抓
#将网页的源代码保存到文件中
curl -s 网页地址> $URL
#过滤并清理文件以获得所需的*敏*感*词*URL链接
echo -e "\033[32m 正在获取*敏*感*词* URL,请稍候..., 033[0m"
sed -i'/
sed -i's/.*src=``//' $URL #删除src=''和之前的内容
sed -i's/''.*//' $URL #去掉双引号及其后的所有内容
回声
#检测系统如果没有wget下载工具,安装软件
如果!rpm -q wget &>/dev/null;
然后
yum -y 安装 wget
菲
#使用循环批量下载所有图片数据
#wget 是一个下载工具,其参数选项如下:
# -P 指定文件的下载目录
# -c 支持可续传
# -q 不显示下载过程
echo -e "\033[32m 正在批量下载*敏*感*词*,请稍等,呵呵呵!\033[0m"
对于我在 $(cat $URL)
做
wget -P /tmp/ -c -q $i
完毕
#删除临时*敏*感*词*列表文件
rm -rf $URL