网页flash视频抓取器(Flash资源的优点及存在形式、网络爬虫的基本组成结构和搜索结果进行比较)

优采云发布时间: 2021-09-10 20:12

　　总结首先介绍了Flash资源的优势和网络中表单的存在，网络爬虫的定义和原理，网络爬虫面临的问题；其次，提出了一种新的搜索方法，与传统的网络爬虫进行对比，验证新搜索方法的优势；最后指出了下一步的发展方向。

　　关键词闪光；爬虫；搜索方法

　　中文图书馆分类号：TP393.01 文献识别码：B

　　文章No.: 1671-489X (2014）14-0032-03

　　Flash资源因其生动、易交互、制作简单等特点，越来越受到人们的喜爱。但是，随着网络技术的飞速发展，网络上Flash资源的存在变得极其复杂，传统搜索引擎无法获得令人满意的网络Flash资源水平。作为搜索引擎的基本组成部分，人们必须对网络爬虫的作用给予足够的重视。因此，人们越来越重视改进网络爬虫的搜索方式。本文提出一种新的搜索方法，与传统爬虫的基本结构和搜索结果进行比较，以验证新搜索方法的优势。

　　1 Web Flash 资源的优势和存在形式

　　网页 Flash 资源的优势

　　1）Flash *敏*感*词*通常很短。由于只占用有限的网络带宽，一般只有几兆，Flash*敏*感*词*的平均时间比传统*敏*感*词*短。

　　2）Flash*敏*感*词*可以与观众互动，满足观众更多的需求。观看者可以通过一定的操作来改变*敏*感*词*的播放过程，而传统*敏*感*词*没有这样的特点。

　　3）Flash *敏*感*词*比传统*敏*感*词*更容易制作。 Flash*敏*感*词*制*敏*感*词*好者相对容易成为制作人。他们只需要掌握一些*敏*感*词*相关的软件就可以尝试制作Flash*敏*感*词*。 Flash*敏*感*词*的制作需要在电脑上进行。 Flash制作软件所需的条件比较简单，硬件要求比较低，不需要大的投资。

　　4）Flash *敏*感*词*占用的空间更少。 Flash*敏*感*词*可以使用矢量图形，所以文件占用的空间小； Flash*敏*感*词*制作完成后，可以上传到互联网上，网民可以欣赏和下载，并可以更快的速度在网络上传播。这一优势使得Flash*敏*感*词*很快就在互联网上流行起来。一些用传统方法制作的*敏*感*词*占用大量空间，难以在互联网上传播。

　　5）Flash*敏*感*词*受限于制作人和技术水平。不可否认，网上的很多Flash*敏*感*词*还是比较粗糙和简单的，但是Flash*敏*感*词*确实还在开发一些新的视觉效果，比如三维效果。我相信未来会有新的发展。比传统*敏*感*词*更简单、更智能，更符合大众口味。

　　6）Flash*敏*感*词*大大减少了人力物力的消耗，存储方式更加方便，制作成本大大降低。同时，Flash*敏*感*词*的制作周期相比传统*敏*感*词*会大大缩短。对于相同时长的*敏*感*词*，使用Flash技术制作所需的时间会大大缩短，而使用传统方法制作所需的时间通常更长。更长。

　　网络 Flash 资源的存在 Flash 资源通常存储在 Web 服务器中，通常以独立文件的形式存在。有两种传统方法。

　　首先是将其作为网页的一部分嵌入到网页中。在网页中嵌入Flash*敏*感*词*的方法有很多种，情况比较复杂。目前主要的方法是使用标签（OBJECT和EMBED）、脚本、函数或对象在网页中嵌入Flash资源，使用网页浏览器解析网页的HTTP标签和脚本，然后使用相应的。以表单形式显示和播放 Flash *敏*感*词*。

　　第二种方式是通过网页中的锚文本链接。将 Flash *敏*感*词*与网页中的锚文本链接起来非常简单，并且可以免费下载。但是，作为一种通过Java-Script脚本展示的Flash*敏*感*词*资源的丰富存在形式，对其的研究还相对较少。

　　2 网络爬虫的定义和工作原理

　　网络爬虫的定义网络爬虫是搜索引擎系统结构中搜索引擎的通用名称，也叫网络蜘蛛，是一种自动采集网页的系统程序。它的功能是全天候在互联网上爬行采集信息，通常是从首页开始，读取网页信息，在网页中寻找其他链接地址，然后寻找下一个网页，然后在网页中寻找新的链接。新的网页地址。如此循环，目的是抓取网站的所有网页。负责采集新信息和更新旧信息。

　　网络爬虫的工作原理当蜘蛛爬取网页时，一般有两种信息采集策略。

　　1）从一组 URL 开始，连同这些 URL，以广度和深度优先的方式循环采集 Web 上的信息。它沿着网页中的超链接爬到其他网页，循环处理，并保存它采集的所有网页。这些起始网址通常是非常正式的网站，并且收录许多链接。

　　2）网站空间按照域名、IP地址等进行划分，每个网络蜘蛛负责穷举一个子空间。爬虫采集各种信息，包括网页文件（如HTML、JSP、ASPX等）。一些网络爬虫可以处理文档（如Word、Excel、PPT等），甚至数据库。爬虫会采集所有过滤后的字符格式的文档，并从全文数据中提取文本。每个文档都与全文文件有对应关系，包括网页的标题、URL、大小、类型等属性，以及文本内容。

　　3 网络爬虫面临的问题

　　截至2014年1月底，中国互联网网页数量超过1500亿，静态网页占比59.78%，动态网页占比40.22% 大量页面被复制。一个网页的大小约为 50 KB。从网页数和字节数的增长率来看，2013年与2012年相比增长率分别为22.2%和19.0%。动态网页的存在以及客户端和服务器端脚本语言的使用，使得指向同一页面的 URL 数量呈爆炸式增长。

　　以上特点使得网络爬虫面临一定的困难：首先，海量的网页信息使得网络爬虫在有限的时间内只能抓取几个网页；其次，动态网页的一些技术原因使得网络爬虫无法抓取它们。仅在中国就有这么多网页。如果您考虑世界上的网页，则世界上没有搜索引擎可以索引 Internet 上的所有网页。即使它可以抓取所有页面，也没有足够的空间。容纳。

　　4 网络爬虫搜索方法对比

　　网络爬虫基本组成结构对比基本组成结构对比如图1、图2。

　　网络爬虫搜索结果对比本实验选取10个以上权威Flash资源网站作为*敏*感*词*网站，传统爬虫搜索到的Flash数和JS（JavaScript）脚本搜索到的Flash数文件搜索在最后两列，如表1所示。

　　实验结果分析本实验使用的带有JS脚本文件搜索的爬虫不仅具有传统爬虫的功能，还可以抓取网页中收录的JS脚本文件，下载JS文件并放到源码后面网页的文件。然后统计整个Flash的数量。本次实验使用传统爬虫和带JS脚本文件搜索的爬虫爬取相同的10个网站，爬取时间为24小时，在爬取65626个页面后，带JS脚本文件搜索的爬虫搜索到的Flash数超过比传统爬虫搜索的Flash数量多4000个。这说明JS脚本文件中还收录了很多Flash资源，可以让网络爬虫找到更多的Flash资源；同时，CSS（层叠样式表）文件也可能收录 Flash 资源。如果搜索网页中收录的 CSS 文件，还可以扩大搜索 Flash 资源的范围。此方法也可用于搜索其他网络资源，如图片、视频等。本实验为查找和下载更多Flash资源提供参考。

　　5 结束语

　　随着Flash制作技术的蓬勃发展，其在教育教学中的作用日益突出。有的Flash资源可以直接用于教学，有的有潜在的教学价值。互联网的飞速发展，使Flash*敏*感*词*的发布和分享摆脱了时间和空间的限制，成为获取这些资源的重要途径。另一方面，海量丰富且动态更新的网络资源让人们越来越难以找到自己需要的Flash*敏*感*词*资源。网络爬虫技术将用于处理互联网上越来越多的Flash资源。在寻找隐藏在网页中的Flash资源方*敏*感*词*有很大的应用价值，对建立数字化学习资源库具有很大的应用价值。同时，挑战也很大。本文的下一步是寻找更多Flash资源并下载以进行研究。

　　参考资料

　　[1] 孟祥增。多媒体网络教学资源内容特征提取与搜索研究[J].视听教育研究，2007 (12）:33-34.

　　[2]孙立伟、何国辉、吴立发.网络爬虫技术研究[J]．计算机知识与技术, 2010, 6 (15）:4112-4115.

　　[3] 闫晓东、王志娟、韩莉.多语种网络资源搜索新技术[M].北京：中央民族大学出版社，2012：29.

　　[4]陈志刚. Web Flash 资源爬虫的设计与实现[D].济南：山东师范大学，2011.

　　[5] 中国互联网络信息中心。第33次中国互联网发展统计报告[DB/OL].[2014-01-31].

　　[6] 徐磊。 Flash*敏*感*词*画面的视觉特征与情感研究[D].济南：山东师范大学，2012.

0

2021-09-10

网页flash视频抓取器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页flash视频抓取器(Flash资源的优点及存在形式、网络爬虫的基本组成结构和搜索结果进行比较)

0 个评论

发起人