网页视频抓取(基于TOB的网络抓取技术分析及应用系统的专利设计)
优采云 发布时间: 2021-11-18 15:22网页视频抓取(基于TOB的网络抓取技术分析及应用系统的专利设计)
专利名称:视频信息采集方法网站
技术领域:
本发明涉及网络搜索技术领域,具体涉及一种获取视频网站中视频详细信息的信息抓取方法。
背景技术:
自1994年基于TOB的搜索引擎出现以来,搜索引擎得到了很大的发展。搜索引擎解决了海量互联网资源的快速定位和检索,在人们的日常生活和工作中发挥着越来越重要的作用。网页信息抓取技术作为搜索引擎的重要组成部分,即爬虫技术的发展越来越成熟。在计算机领域,越来越多的网页抓取技术以开源的方式提供给开发者和企业应用。下面简单介绍几种目前流行的开源网页抓取技术。Larbin =Larbin 是一个开源的网页抓取技术,由法国人自主研发,目的是跟踪页面的URL进行扩展抓取,并最终为搜索引擎提供数据源。Larbin 只抓取网页,不处理搜索引擎的其他解析、索引和检索工作。拉宾非常有效率。一个简单的 Larbin 抓取每天可以获取 500 万个网页。Heritrix =Heritrix 是 SourceForge 上的开源产品。Heritrix 的特点是扩展性好,开发者可以根据自己的需要扩展下载逻辑。爬虫想根据给定的URL地址提交HTTP请求,抓取网络资源,获取完整及时的网站内容。通过分析下载网页中的有效链接URL地址,我们可以进一步获取更多的网络资源。Heritrix可以通过TOB用户界面轻松启动和管理下载过程,控制策略灵活。
Heritrix 还可以获取图像和其他非文本内容。Nutch=Nutch是一个完整的Java应用系统,基于Lucene实现搜索引擎应用。Nutch提供网页爬取和下载功能,通过Lucene接口将下载结果存入数据库,并建立索引。随着视频网站在中国的流行和蓬勃发展,人们的网络生活几乎离不开视频网站。人们不仅喜欢像视频一样直观的获取信息的方式,也喜欢浏览视频,而且很多人亲自参与视频的拍摄和制作,并将视频发布在视频网站上与网友分享和交流。视频网站信息捕获的运行任务是捕获每个视频的详细信息< @网站,包括视频发布者、视频名称、上传时间、标签、简介、图片、观看次数、评论数等。实现视频网站视频信息发布的整体监控。目前,基本上所有开源网页抓取技术的总体设计原则都是一样的。即抓取过程从一个或多个初始网页开始,获取初始网页上的URL。在抓取网页的过程中,它不断地从当前网页中提取新的网址并放入队列中,直到满足系统停止条件。由于视频节目采集需要多维信息,爬取程序需要能够定位到多个属性对应的具体信息(如点击次数、网页中存在的回复数量、类别、程序的上传者)。因此,对于视频网站的节目抓取,普通的页面下载和URL提取方法无法满足视频搜索的特殊搜索目标信息采集。并且由于视频网站的节目信息的特殊性,普通模式下的网络爬虫无法或没有获取到一些特殊的信息,比如节目对应的图片、节目所在的搜索层数等。位于,等等。另外,为了获取丰富的数据,根据视频网站的特点,爬虫还需要做其他一些特殊的操作。对于视频网站的节目抓取,普通的页面下载和URL提取方法无法满足视频搜索的特殊搜索目标信息采集。并且由于视频网站的节目信息的特殊性,普通模式下的网络爬虫无法或没有获取到一些特殊的信息,比如节目对应的图片、节目所在的搜索层数等。位于,等等。另外,为了获取丰富的数据,根据视频网站的特点,爬虫还需要做其他一些特殊的操作。对于视频网站的节目抓取,普通的页面下载和URL提取方法无法满足视频搜索的特殊搜索目标信息采集。并且由于视频网站的节目信息的特殊性,普通模式下的网络爬虫无法或没有获取到一些特殊的信息,比如节目对应的图片、节目所在的搜索层数等。位于,等等。另外,为了获取丰富的数据,根据视频网站的特点,爬虫还需要做其他一些特殊的操作。@网站,普通模式下的网页爬取无法或没有获取到一些特殊信息,如程序对应的图片、程序所在的搜索层数等。另外,为了获取丰富的数据,根据视频网站的特点,爬虫还需要做其他一些特殊的操作。@网站,普通模式下的网页爬取无法或没有获取到一些特殊信息,如程序对应的图片、程序所在的搜索层数等。另外,为了获取丰富的数据,根据视频网站的特点,爬虫还需要做其他一些特殊的操作。
发明内容
<p>本发明要解决的技术问题是针对现有的视频网站信息采集技术不能完全获取视频网站节目的全部信息的缺陷,提供了一种完整的、方便抓拍 抓拍视频网站中所有视频信息的方法。本发明解决其技术问题所采用的技术方案是构建一种视频网站的信息捕获方法,包括步骤S1、,捕获视频1、的网页源文件。 @网站; S2、 针对不同格式的网页,指定不同的正则表达式集合,定位网页源文件中视频节目的属性信息,并生成定位结果;S< @3、 根据定位结果,将网页源文件与正则表达式集合中的正则表达式进行匹配,生成匹配结果;S4、根据匹配结果,将网页源文件中的视频节目的属性信息存储在对应的属性库中。本发明视频网站的信息采集方法,步骤S3包括步骤S31、根据定位结果,将网页源文件与本地标签库进行比较,生成比较结果; S32、根据对比结果过滤网页源文件;S3