在信息爆炸的时代，爬虫能够做什么？

优采云发布时间: 2022-05-06 15:31

　　在信息爆炸的时代，爬虫能够做什么？

　　“我们不生产数据，我们只是数据的搬运工”这句话大概是最能高度概括爬虫的核心功能了。

　　当一辆车消失天际，

　　当一个人成了谜，

　　你不知道，他们为何离去...

　　在一个午后，偶然听到邓紫棋的这首《后会无期》，心里想着，一个人，不在你身边，他真的成了谜了吗？程序员出身的我看未必...前一秒文艺范，后一秒码农出场是不是杀你一个猝不及防（狗头）。收益于当今大数据垂手可得的时代，任何一个人似乎都逃不过互联网的监控，一切你的行为，都可以在网上被搜寻追踪到。正因为如今是信息爆炸的时代，任何信息似乎都能通过网络获得，正因为信息可获取，也成为不少企业或产品从中看到了商机，诞生了爬虫行业。想起跟产品、设计同学聊天中，有不少同学问我，爬虫其实是什么，所以在这篇文章里，笔者就简单谈谈对爬虫的看法，聊聊他能够做什么。

　　爬虫的概念

　　爬虫是什么？百度百科是这样解释的：网络爬虫（又被称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

　　通俗来说，爬虫是模拟人类访问网站行为，可以自动请求网页，把数据爬取下来，然后使用一定的规则提取有价值的数据。

　　举个简单的例子，最近在热播的选秀节目《明日之子第三季》，经过第一第二期的初试考核，最后留下53位选手，你想获取他们每个人的身高、年龄、粉丝量、星座、所属经纪公司的分布情况，要是手动一个一个去搜索资料，恐怕大半天时间就没了。这个时候就是爬虫技术大显身手的时候了，我们可以用 python 写一段程序，它能从你指定的一个或多个网站上读取和记录数据，模拟人去百度百科、微博去搜索他们的资料，把相对应的信息爬取下来存到一个文件里，没一会你就可以得到你想要的所有信息了。团队同学去年就针对《创造101》节目里的*敏*感*词*姐，通过爬虫对她们做了一次资料分析，有兴趣可以看：

　　而最最最常见大家都知道的爬虫一个使用场景，就是我们平时用来搜索资讯的百度、Google。这些公司是怎么把别的网站的数据聚集在一起，供给用户看的，当然就是网络爬虫没日没夜地工作的功劳了。

　　爬虫是怎么做的？

　　爬虫技术也并不神秘，无非分为三步：“爬”上网页、“铲”下数据，进行加工清洗。正如文章摘要说，爬虫不是数据的生产者，而是数据的搬运工。爬虫是怎么把寻找到我们想要的数据呢？原理很简单，首先给爬虫几个我们想要爬取信息的 URL，爬虫顺着这个 Url 访问到页面，对网页的信息进行分析筛选出我们想要的数据，一部分是网页的有效信息，另一部分是网页中的 Url 链接，通过这些链接，我们又可以获取更多其他数据，通过这样反复操作，互联网上的海量数据都可以抓取下来了。

　　如果把爬虫比喻成一个黄金矿工，金子就在那了，但是能不能挖到，能不能快速地挖到，还是有一定技术含量的。这里我们就不展开来讲爬虫的技术细节了。

　　爬虫能够做什么？

　　简单一句，爬虫就是获取大数据信息。而通过爬虫获取信息，如今也应用在各种功能方向上。咱们先不讲对与错、是与非，这里举几个例子。

　　（1）丰富产品内容

　　一些产品在刚启动阶段，由于内容生产能力成本太高，也没有太多的 UGC 需要大量信息填充丰富内容框架，特别是一些资讯类产品，如即刻、今日头条等。在他们的初期，都通过爬取其他网站的信息，抓到自家产品上。“即刻”是一款精选信息社区，现在已经有大量的用户贡献各品类 UGC 内容，而在一开始，即刻爬取各个渠道如知乎、微博、bilibili、豆瓣等平台上的内容，通过编辑排版后通过主题的分类方式展示给用户，帮助过滤掉无用或者用户不感兴趣的信息，精准推送，获得一批冷启动阶段的*敏*感*词*用户。

　　除了抓取信息资讯填充平台内容这个做法*敏*感*词*显得没那么冷清，通常会用评论机器人或者爬取别家评论的形式来营造出“热闹”的互动气氛。就在去年年底，就爆出了马蜂窝2100万条“真实评论”中，有1800万条都是从竞品网站上“抄袭”过来的。当然，这种未经平台方允许擅自把用户的评论扒来做商业化运营，显然是不正当的。

　　（2）用户研究与数据分析

　　在微博评论区，我们经常会看到有用户玩趣地说“1分钟，我要这个人的全部信息”。其实这句说说而已的话背后，还真的能做到快速获取一个人的信息，就正如文章一开头所说的快速获取《明日之子》里所有*敏*感*词*姐的信息。说回产品运营本身，我们在做产品时，经常对行业用户喜好与画像、竞品数据监控、热点追踪等有一定的诉求，能够让我们及时了解到行业形态是怎样的，我们的用户是怎样的。

　　就用二次元行业为例，b站是二次元用户的精神家园。b站里面有丰富的内容，如生活类、游戏类、舞蹈类、国创番剧类等等，你能不能快速回答：哪种品类在b站上是最受欢迎的？哪个UP主最近的上升趋势最快？根据粉丝数和粉丝活跃度（投币、点赞、评论等行为的贡献）排名前10的UP主分别是哪些？想必是十分有难度的，而通过数据爬取和分析的一些手段，例如可以定期监控b站的排行榜，了解到哪些品类的内容上升趋势最快，最近大家都在谈论什么话题热点。也正因为有这些诉求，每年我们可以看到很多数据机构颁发一些诸如《Z时代消费力白皮书》等分析报告，快速了解到各行各业各用户分类的特点。

　　（3）信息变现

　　当然，最直接的方式就是通过数据爬取一步实现商业变现。网上也有好一些傻瓜式、不需要懂任何技术就可以帮助你快速实现数据采集的产品，连名字也非常地契合“数据爬取”的功能点。如优采云采集器、优采云、优采云等。只要输入一个网站链接，简单配置一下，就能快速把想要的文字、图片、视频等信息扒下来。笔者体验过优采云采集器，真正地做到小白也会用、可视化操作进行数据采集。这些应用通过提供不同程度的功能支持，用会员套餐的形式实现商业变现。

　　又例如 App Growing 是一个移动广告分析平台，通过实时对多个媒体如今日头条、微博广告、百度广告、广点通等追踪到的广告归类到26个细分行业，让各行各业的用户都能迅速找到想要参考的广告。通过推出专业版、旗舰版、定制版等不同套餐向客户收取费用。

　　以上我只列举了一些平常我们做产品功能时，可能会关注爬虫用到的领域和用途，而它还应用到各种比上述用途更灰色地带的事情，这里就不一一举例了...

　　爬虫广泛应用的背后

　　互联网充斥着形形色色的爬虫，各行各业都有不同规模的用户被爬虫爱好者盯上，背后的原因离不开其商业价值。这里再说一个很简单的例子，依然用*敏*感*词*行业为例。你在百度搜索“一人之下*敏*感*词*”，《一人之下》这一部是腾讯独家版权的*敏*感*词*，搜索结果本应只有腾讯平台才有相关的章节*敏*感*词*内容。但是排行第一的是一个名为“塔多*敏*感*词*”的网站。这些小网站通过一些*敏*感*词*CMS系统，爬取正版*敏*感*词*网站资源并实现快速建站。绕过付昂贵*敏*感*词*版权费用，建站后在网页上卖各种*敏*感*词*小广告，实现流量变现。而正是这些不起眼、你可能根本不屑一顾的小网站，有可能正逐渐吞噬你的用户流量而不自知。

　　生产内容是需要成本的，获得用户也是需要成本的，的确在信息丰富甚至泛滥的互联网上，爬虫能够快速帮助我们低成本地获得我们想要的信息。但是通过爬虫技术，是深耕行业，还是剑走偏锋，这可能会走向两条截然不同的道路。

0

2022-05-06

建站系统采集器

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

在信息爆炸的时代，爬虫能够做什么？

0 个评论

发起人