网页视频抓取脚本(网络爬虫技术被称为网络蜘蛛或者网络机器人,难度也有所不同)

优采云 发布时间: 2021-11-11 15:02

  网页视频抓取脚本(网络爬虫技术被称为网络蜘蛛或者网络机器人,难度也有所不同)

  编程要求:

  网络爬行技术被称为网络蜘蛛或网络机器人,是指根据一定的规则自动在网络上抓取的程序或脚本数据。比如我们在网上找了很多图片或者很多视频资料。当然你可以用鼠标一个一个的下载,但是会消耗大量的时间和精力也是可以理解的。此时,我们需要一个脚本,可以自动抓取网络内容,自动抓取网络图片或连接,自动批量下载。当然,根据网络数据抓取的深度和数据的复杂程度,设计一个网络爬虫的难度也不同。

  脚本源代码:

  #!/bin/bash

  #功能说明:编写脚本抓取单个网页中的所有图片

  #需要获取的网页的网页链接*敏*感*词*和*敏*感*词*URL文件名

  页=“页地址”

  URL="/tmp/spider_$$.txt" #在哪里抓

  #将网页的源代码保存到文件中

  curl -s 网页地址> $URL

  #过滤并清理文件以获得所需的*敏*感*词*URL链接

  echo -e "\033[32m 正在获取*敏*感*词* URL,请稍候..., 033[0m"

  sed -i'/

  sed -i's/.*src=``//' $URL #删除src=''和之前的内容

  sed -i's/''.*//' $URL #去掉双引号及其后的所有内容

  回声

  #检测系统如果没有wget下载工具,安装软件

  如果!rpm -q wget &>/dev/null;

  然后

  yum -y 安装 wget

  菲

  #使用循环批量下载所有图片数据

  #wget 是一个下载工具,其参数选项如下:

  # -P 指定文件的下载目录

  # -c 支持可续传

  # -q 不显示下载过程

  echo -e "\033[32m 正在批量下载*敏*感*词*,请稍等,呵呵呵!\033[0m"

  对于我在 $(cat $URL)

  做

  wget -P /tmp/ -c -q $i

  完毕

  #删除临时*敏*感*词*列表文件

  rm -rf $URL

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线