抓取网页数据工具(讲解一个小白是怎么快速上手WebScraper的字段步骤？)

优采云发布时间: 2022-01-31 10:15

　　在新媒体的运营中，你会经常需要使用数据来帮助你工作。例如，如果您是新来一家公司编辑新媒体内容，您需要盘点公司现有的内容资产，以避免重复内容制作。这时候就需要把网页上的数据刮下来放在一起，这样一目了然。

　　从网页中抓取数据的最佳方式当然是爬虫工具。很多人觉得爬虫很难学吧？一开始我也是这么想的，直到遇到了Web Scraper这个操作工具，我才知道爬取网络数据可以这么简单。

　　接下来，我将展示我自己的故事，并解释一个新手如何快速上手 Web Scraper。

　　第 1 步：下载 Web Scraper

　　Web Scraper 是 Chrome 浏览器上的一个插件。需要翻墙进入Chrome App Store，下载Web Scraper插件。

　　第 2 步：打开 Web Scraper

　　首先打开一个要抓取数据的网页。比如我想抓取今日头条账号“吴晓波频道”的文章标题、时间、评论数，那么我会先打开，然后一个一个操作。

　　然后使用快捷键 Ctrl + Shift + I/F12 打开 Web Scraper。

　　第 3 步：创建新站点地图

　　点击Create New Sitemap，有两个选项，import sitemap是导入现成的sitemap的向导，我们一般没有现成的sitemap，所以一般不选这个，直接选create sitemap。然后做这两个操作：

　　Sitemap Name：表示你的Sitemap适合哪个网页，所以可以根据网页来命名，但是需要用英文字母。比如我抓取今日头条的数据，那我就用今日头条来命名；站点地图 URL：将网页链接复制到星标 URL 列。比如图片中，我把“吴晓波频道”的首页链接复制到了这个栏目。第 4 步：设置站点地图

　　整个Web Scraper的抓取逻辑如下：设置一级Selector，选择抓取范围；在一级Selector下设置二级Selector，选择抓取字段，然后抓取。

　　让我们举一个更接地气的例子。如果要获取福建人的姓名、性别、年龄这三个要素，则必须这样做：首先定位福建省，然后定位福建省的姓名、性别、年龄。.

　　这里，一级Selector表示要圈出中国大国中的福建省，二级Selector表示要圈出福建省人口中的姓名、性别、年龄三个要素.

　　对于文章来说，一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等。从关卡Selector中选择我们想要的元素，比如标题、作者、阅读次数。

　　让我们分解一下设置一级和二级 Selector 的工作流程：

　　1. 点击 Add new selector 创建一级 Selector 并按照以下步骤操作：

　　输入id：id代表你抓取的整个范围，比如这里是文章，我们可以命名为wuxiaobo-articles；select Type：type代表你抓取的这部分的类型，比如element/text/link，因为这是整个文章元素范围的选择，所以我们需要使用Element整体选择（如果网页需要滑动加载更多，然后选择Element Scroll Down）；勾选Multiple：勾选Multiple前面的小框，因为要选择多个元素而不是单个元素，当我们勾选它时，爬虫插件会帮助我们识别多个相同类型的文章文章；保留设置：其余未提及的部分保持默认设置。2. 单击选择以选择一个范围并按照以下步骤操作：

　　选择范围：使用鼠标选择要抓取的数据范围。绿色是要选择的区域。鼠标点击后变为红色选择该区域。多选：不要只选择一个，还可以选择以下几个。否则只有一行数据可以爬出来；完成选择：记得点击完成选择；保存：单击保存选择器。3. 设置好一级Selector后，点击设置二级Selector，步骤如下：

　　创建一个新的选择器：点击添加新的选择器；输入id：id代表你在抓取哪个字段，所以可以取字段的英文，比如我要选择“作者”，就写“作者”；select Type：选择Text，因为要抓取的是文本；取消勾选Multiple：不要勾选Multiple前面的小框，因为我们这里抓取的是单个元素；保留设置：将其余未提及的部分保留为默认设置。4. 点击选择，然后点击你要抓取的字段，按照以下步骤操作：

　　选择字段：这里要爬取的字段是一个。用鼠标单击该字段以将其选中。比如你想爬取标题，用鼠标点击某个文章的标题。当字段所在区域变为红色时，为Select；完成选择：记得点击完成选择；保存：单击保存选择器。5. 重复上述操作，直到选择好要爬的田地。第 5 步：抓取数据

　　Web Scraper之所以是傻瓜式爬虫工具，是因为它只需要设置好所有的Selector，就可以开始爬取数据了。怎么样，简单吗？

　　那么如何开始爬取数据呢？只需一个简单的操作：点击Scrape，然后点击Start Scraping，会弹出一个小窗口，然后辛勤的小爬虫就开始工作了。你会得到一个收录所有你想要的数据的列表。

　　如果您想对这些数据进行排序，例如按照阅读量、点赞数、作者等指标，让数据更加清晰，那么您可以点击 Export Data as CSV 将其导入 Excel 表格。

　　导入 Excel 表格后，您可以过滤数据。

　　以上就是快速上手Web Scraper的全部操作流程。即使是像我这样的懒癌+残疾人也可以在5分钟内完成。我相信你也可以爬到任何你想爬的地方，完全没问题。

0

2022-01-31

抓取网页数据工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

抓取网页数据工具(讲解一个小白是怎么快速上手WebScraper的字段步骤？)

0 个评论

发起人

AI时代内容工厂

抓取网页数据工具(讲解一个小白是怎么快速上手WebScraper的字段步骤？)

0 个评论

发起人

相关问题