网页视频抓取脚本(网络爬虫技术被称为网络蜘蛛或者网络机器人，难度也有所不同)

优采云发布时间: 2021-11-11 15:02

　　编程要求：

　　网络爬行技术被称为网络蜘蛛或网络机器人，是指根据一定的规则自动在网络上抓取的程序或脚本数据。比如我们在网上找了很多图片或者很多视频资料。当然你可以用鼠标一个一个的下载，但是会消耗大量的时间和精力也是可以理解的。此时，我们需要一个脚本，可以自动抓取网络内容，自动抓取网络图片或连接，自动批量下载。当然，根据网络数据抓取的深度和数据的复杂程度，设计一个网络爬虫的难度也不同。

　　脚本源代码：

　　#!/bin/bash

　　#功能说明：编写脚本抓取单个网页中的所有图片

　　#需要获取的网页的网页链接*敏*感*词*和*敏*感*词*URL文件名

　　页=“页地址”

　　URL="/tmp/spider_$$.txt" #在哪里抓

　　#将网页的源代码保存到文件中

　　curl -s 网页地址> $URL

　　#过滤并清理文件以获得所需的*敏*感*词*URL链接

　　echo -e "3[32m 正在获取*敏*感*词* URL，请稍候..., 033[0m"

　　sed -i'/

　　sed -i's/.*src=``//' $URL #删除src=''和之前的内容

　　sed -i's/''.*//' $URL #去掉双引号及其后的所有内容

　　回声

　　#检测系统如果没有wget下载工具，安装软件

　　如果！rpm -q wget &>/dev/null;

　　然后

　　yum -y 安装 wget

　　菲

　　#使用循环批量下载所有图片数据

　　#wget 是一个下载工具，其参数选项如下：

　　# -P 指定文件的下载目录

　　# -c 支持可续传

　　# -q 不显示下载过程

　　echo -e "3[32m 正在批量下载*敏*感*词*，请稍等，呵呵呵！3[0m"

　　对于我在 $(cat $URL)

　　做

　　wget -P /tmp/ -c -q $i

　　完毕

　　#删除临时*敏*感*词*列表文件

　　rm -rf $URL

0

2021-11-11

网页视频抓取脚本

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页视频抓取脚本(网络爬虫技术被称为网络蜘蛛或者网络机器人，难度也有所不同)

0 个评论

发起人