抓取网页数据工具(讲解一个小白是怎么快速上手WebScraper的字段步骤?)

优采云 发布时间: 2022-01-31 10:15

  抓取网页数据工具(讲解一个小白是怎么快速上手WebScraper的字段步骤?)

  在新媒体的运营中,你会经常需要使用数据来帮助你工作。例如,如果您是新来一家公司编辑新媒体内容,您需要盘点公司现有的内容资产,以避免重复内容制作。这时候就需要把网页上的数据刮下来放在一起,这样一目了然。

  从网页中抓取数据的最佳方式当然是爬虫工具。很多人觉得爬虫很难学吧?一开始我也是这么想的,直到遇到了Web Scraper这个操作工具,我才知道爬取网络数据可以这么简单。

  接下来,我将展示我自己的故事,并解释一个新手如何快速上手 Web Scraper。

  第 1 步:下载 Web Scraper

  Web Scraper 是 Chrome 浏览器上的一个插件。需要翻墙进入Chrome App Store,下载Web Scraper插件。

  

  第 2 步:打开 Web Scraper

  首先打开一个要抓取数据的网页。比如我想抓取今日头条账号“吴晓波频道”的文章标题、时间、评论数,那么我会先打开,然后一个一个操作。

  然后使用快捷键 Ctrl + Shift + I/F12 打开 Web Scraper。

  

  第 3 步:创建新站点地图

  点击Create New Sitemap,有两个选项,import sitemap是导入现成的sitemap的向导,我们一般没有现成的sitemap,所以一般不选这个,直接选create sitemap。然后做这两个操作:

  

  Sitemap Name:表示你的Sitemap适合哪个网页,所以可以根据网页来命名,但是需要用英文字母。比如我抓取今日头条的数据,那我就用今日头条来命名;站点地图 URL:将网页链接复制到星标 URL 列。比如图片中,我把“吴晓波频道”的首页链接复制到了这个栏目。第 4 步:设置站点地图

  整个Web Scraper的抓取逻辑如下:设置一级Selector,选择抓取范围;在一级Selector下设置二级Selector,选择抓取字段,然后抓取。

  让我们举一个更接地气的例子。如果要获取福建人的姓名、性别、年龄这三个要素,则必须这样做:首先定位福建省,然后定位福建省的姓名、性别、年龄。.

  这里,一级Selector表示要圈出中国大国中的福建省,二级Selector表示要圈出福建省人口中的姓名、性别、年龄三个要素.

  对于文章来说,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等。从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。

  让我们分解一下设置一级和二级 Selector 的工作流程:

  1. 点击 Add new selector 创建一级 Selector 并按照以下步骤操作:

  

  输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaobo-articles;select Type:type代表你抓取的这部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要使用Element整体选择(如果网页需要滑动加载更多,然后选择Element Scroll Down);勾选Multiple:勾选Multiple前面的小框,因为要选择多个元素而不是单个元素,当我们勾选它时,爬虫插件会帮助我们识别多个相同类型的文章文章;保留设置:其余未提及的部分保持默认设置。2. 单击选择以选择一个范围并按照以下步骤操作:

  

  选择范围:使用鼠标选择要抓取的数据范围。绿色是要选择的区域。鼠标点击后变为红色选择该区域。多选:不要只选择一个,还可以选择以下几个。否则只有一行数据可以爬出来;完成选择:记得点击完成选择;保存:单击保存选择器。3. 设置好一级Selector后,点击设置二级Selector,步骤如下:

  

  创建一个新的选择器:点击添加新的选择器;输入id:id代表你在抓取哪个字段,所以可以取字段的英文,比如我要选择“作者”,就写“作者”;select Type:选择Text,因为要抓取的是文本;取消勾选Multiple:不要勾选Multiple前面的小框,因为我们这里抓取的是单个元素;保留设置:将其余未提及的部分保留为默认设置。4. 点击选择,然后点击你要抓取的字段,按照以下步骤操作:

  选择字段:这里要爬取的字段是一个。用鼠标单击该字段以将其选中。比如你想爬取标题,用鼠标点击某个文章的标题。当字段所在区域变为红色时,为Select;完成选择:记得点击完成选择;保存:单击保存选择器。5. 重复上述操作,直到选择好要爬的田地。第 5 步:抓取数据

  Web Scraper之所以是傻瓜式爬虫工具,是因为它只需要设置好所有的Selector,就可以开始爬取数据了。怎么样,简单吗?

  那么如何开始爬取数据呢?只需一个简单的操作:点击Scrape,然后点击Start Scraping,会弹出一个小窗口,然后辛勤的小爬虫就开始工作了。你会得到一个收录所有你想要的数据的列表。

  

  如果您想对这些数据进行排序,例如按照阅读量、点赞数、作者等指标,让数据更加清晰,那么您可以点击 Export Data as CSV 将其导入 Excel 表格。

  

  导入 Excel 表格后,您可以过滤数据。

  

  以上就是快速上手Web Scraper的全部操作流程。即使是像我这样的懒癌+残疾人也可以在5分钟内完成。我相信你也可以爬到任何你想爬的地方,完全没问题。

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线