c爬虫抓取网页数据(我组开发遗留下来的分类保存到的文件和扒取)

优采云发布时间: 2022-04-14 14:01

　　2021-09-27

　　需要：

　　我们组的研究课题是编写一个更实用的爬虫软件，将其应用到一些前辈的代码中，并在此基础上进行完善和创新。

　　鉴于高级代码已经实现了基本功能，即从网站中爬取相关Word文档和其他计算机相关文件资料，过滤掉无关信息。我组将从以下几个方面着手改进和完善：

　　1.增强的去广告功能：

　　如今的网页情况，很多网页，包括贴吧、微博都充斥着广告，其中一些不可避免地与电脑有关，但这些广告的作用并没有实际意义。高级代码中确实有相应的删除广告的功能，但效果并不明显。在很多情况下，无法识别网络广告和实际有用的信息，因此会出现一些数据浪费或数据丢失。. 针对这种情况，我们小组决定对其广告过滤功能进行改进和修改。

　　2.按类别保存提取的文件：

　　对爬虫抓取的数据进行分类非常重要。学长的代码中，获取的数据没有入库分类存储，给下一组的开发留下了一些问题。，我组研究后认为应该增加保存党的分类的功能。

　　3.添加视频采集功能：

　　前辈的代码只实现了部分文本文件的提取，并没有进行视频数据的提取。但是由于网上很多视频都有相应的版权问题，而且大部分视频占用了很大的硬盘容量，所以我们会抓取视频的地址并存入数据库。

　　4.CSS 和 Javascript网站：

　　在原创代码中，只能抓取 HTTP6 网页。我们认为数据采集将过于有限。因此，我们想在这个问题中加入 CSS 和 Javascript 网站的抓取功能。生成大量的代码工作量，只是一个初步的想法。

　　5.网页质量判断：

　　有些网站由于缺乏相关的和计算机知识的内容，重复搜索只会造成时间和资源的浪费。针对这种情况，我们认为应该增加一个判断网页质量的功能，把不合适的网站去掉，提高软件运行效率。

　　方法（实践）：

　　1.对于抓取到的网站，获取URL，查看下一级网站的AD字段以及下一级网站与关键字的关联度

　　上学年对这个项目的评测中，去广告的功能并不完善，还夹杂了很多广告。他们在博客上写道，说是根据AD领域来判断这是否网站是一个广告网站。我们觉得如果只根据AD字段来判断，有可能在网站中间的网站中抓取一些无用的广告。因此，我们觉得应该再往下检查一级。如果下一级网站中有很多广告网站，则排除这个网站。因为我们考虑到如果投放了一个广告，最多会经过一次网站传输，否则广告投放是不会生效的。因此，我们考虑多一个检测级别的方法，这应该可以在很大程度上解决问题。得到的网站中的广告有很多问题。

　　2.抓取的不同文件会根据文件格式的不同分别保存（先按文件夹分开）

　　捕获的网站根据它们与关键字的相关性进行分级和排序。上学年项目负责组评价写道，该组抓到的文件没有分类，所有文件都混在一起，给用户使用带来不便。我们想在这个软件中添加一个对捕获的文件进行分类和存储的功能。当某个文件被抓取时，会根据文件的类型，将其放置在该文件所在的存储区域中，从而完成软件运行。之后得到分类文件，方便用户使用。

　　3.提供视频链接，以便用户观看源视频

　　上一组没有完成相关视频的爬取功能。我们认为，如果它是一个网络爬虫，它的初衷是为互联网上的用户爬取有用的资源，而现在视频资源也很重要。因此，我们要增加视频捕捉功能。与内容和关键词相关的视频也会反馈给用户，以便用户观看相关视频。

　　4.CSS 和 Javascript网站

　　暂定。

　　5.检查关键词是否出现在被捕获的网站或者文件的标题中，如果在被捕获的网站或者文件的文本中频繁出现，用这个来判断此网站或文件的值给用户

　　我们认为，如果我们抓取其中出现关键词的所有资源，我们可能会抓取一些网站或不相关但出现关键词的文件，但在排除网站@之后> 以及对用户来说价值不大的文件，通过以上方法，我们抓取的东西质量会大大提高。

　　好处（好处）：

　　1.能够更好地从结果中去除广告网站，优化用户体验

　　去除广告是我们爬虫非常重要的功能。爬虫的初衷是为用户高效地爬取互联网上有用的相关资源。如果可爬取资源中有大量的广告，会让用户的浏览很不方便，也就失去了爬虫的意义。. 我们将检查到下一个级别网站，并使用此方法排除广告网站。这样可以提高抓取资源的质量，用户可以更方便的使用爬虫的功能。

　　2.让用户更容易找到资源

　　如果爬虫把所有抓取到的资源放在一起，当用户需要一个格式单一的文件时会很麻烦。我们将采集到的资源按照类型分别保存，让用户可以更方便的使用软件，获得更好的用户体验。

　　3.让用户可以观看相关视频

　　这是一个全新的功能。之前的版本无法采集视频资源。虽然由于版权原因我们无法完全下载视频，但我们可以为用户提供源视频的链接，以便用户观看。现在互联网上有很多资源以视频的形式存在。我们加入这个功能是为了让这个软件更实用，更能满足用户不断增长的需求。

　　4.不限于HTML5网站，可以获得更多资源（暂定）

　　目前的版本只能爬取HTML5的网站，但是网站里面也有很多有用的资源是用javascript或者css的。我们更新了这个软件，支持javascript和css，可以让爬虫抓取更多的资源，为用户提供更多的服务。

　　5.提高采集结果的质量，增加剔除低质量资源的功能（暂定）

　　如果只关注捕获文件的数量和网站，可能会导致捕获文件和网站的质量很差，但是会减少结果中有用的文件和网站里面的成分让用户体验更差。我们将通过检测关键词是否出现在其标题及其出现频率等方法来确定该文件或网站对用户的价值。如果值不高，那么这个文件或网站 @> 被排除。这将使我们能够抓取更高质量的文件和网站。

　　竞争对手：

　　网络爬虫是一种自动获取网页内容的程序，是搜索引擎的重要组成部分。现在的搜索引擎基本上都涉及到爬虫的设计和优化。搜索引擎的速度也与爬虫的优化程度密切相关。从另一个角度来看，不仅仅是搜索引擎，所有的数据挖掘软件都会涉及到爬虫。因此，爬虫在整个软件行业的地位很高，应用范围非常广泛。这里我们主要通过搜索引擎中的爬虫来分析竞争。

　　首先，拿两个最常用的搜索引擎：百度和谷歌。从爬取信息来看，两者都是行业的佼佼者，爬取算法也很不错，可以按类型分类。，以方便用户操作。它爬取整个万维网的速度非常快。虽然我们的软件在速度和爬取算法方面还不是很成熟，但是我们的软件会为了方便用户而设计。我们会检查爬取文件的匹配度，对它们的优先级进行排序。这也将大大提高用户体验的质量。我将从以下几个方面来讨论我们软件的竞争力。

　　1.爬行速度和爬行负载，这也是衡量爬虫的标准

　　与其他软件相比，我们的软件在速度上还不错。我们通过广度优先的搜索顺序进行搜索，可以提高爬虫的爬取速度。同时，我们使用多个队列进行数据处理，这也使得爬虫可以同时处理多个数据。分组数据，承载能力更强。

　　2.爬取质量和特异性

　　很多网站爬虫爬取给定URL中的所有内容，不仅影响爬取内容的质量，还拖慢了预算。我们的爬虫会专门爬取电脑相关的数据，让爬取的内容更符合用户的需求。同时我们会对广告进行处理，也可以让爬虫的爬取质量更高。同时，我们会在爬取时与关键词进行匹配比较，可以大大减少广告和无关信息。

　　3.分类存储

　　用户的下一步操作可能会使用不同类型的数据。爬虫会在爬取过程中轻松对数据进行分类。分类可以让用户获得更好的用户体验，让用户在搜索的过程中可以更快的找到自己需要的信息。这应该更受程序员的欢迎。

　　4.接口与实现

　　用户在获取爬虫时，需要知道爬虫的输出形式和爬取速度，这就需要我们设计一个简单的接口来实现。我们的界面将以最简单的方式将输出呈现给用户，这将非常直观。

　　5.创新功能

　　我们将为原创爬虫添加新功能。比如抓取视频文件时，我们会将视频地址反馈给用户。这允许用户直接通过地址观看视频。此外，我们还计划实现不限于 html5 网页的爬取，甚至尝试爬取 CSS 或 javascript。这样可以更方便用户操作。

　　分类：

　　技术要点：

2022-04-14

c爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

c爬虫抓取网页数据(我组开发遗留下来的分类保存到的文件和扒取)

0 个评论

发起人

AI时代内容工厂

c爬虫抓取网页数据(我组开发遗留下来的分类保存到的文件和扒取)

0 个评论

发起人

相关问题