网页文章自动采集(网页爬虫WebScraper使用教程、解压你在本页下载的)

优采云发布时间: 2021-10-22 17:07

　　网络爬虫概述

　　网页的爬虫工具基本都是自动脚本的风格，用于一键采集各种关键信息。本次推出的Web Scraper是谷歌浏览器的三方插件，帮助开发者了解主要网站 bot中需要的信息可以自动抓取，但需要注意的是信息采集需要提前设置，需要精准定位，这样自动爬虫工具的作用才会最大化。

　　网络爬虫 Web Scraper 软件功能网络爬虫网络爬虫教程

　　1、将您在本页下载的Web Scraper插件解压，拖入扩展页面。

　　2、插件安装后，其按钮标记会出现在浏览器中。用户可以先在设置页面中设置插件的存储设置和存储类型功能。

　　3、用户可以使用Web Scraper插件进行页面抓取，操作方法如下：

　　1)，打开你要爬取的网页。

　　首先，您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12或者右键，选择Inspect，就可以在开发者工具下看到WebScraper Tab了。. 如下所示：

　　2)，创建一个新的站点地图。单击创建新站点地图，其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的，所以我们一般不选择这个，只选择创建站点地图。

　　然后执行这两个操作：

　　（1)Sitemap Name：代表你的Sitemap适用于哪个网页，所以你可以根据自己的名字给网页起名字，但是需要用英文字母。比如我是从今天的头条中抓取数据，那我就用今日头条来命名

　　（2)Sitemap URL：将网页链接复制到Star URL栏。例如，在图片中，我将“吴晓波频道”的首页链接复制到该栏，然后点击下面的创建站点地图创建一个新的站点地图。

　　3)、设置本站点地图

　　整个Web Scraper的爬取逻辑如下：设置一级Selector，选择爬取范围；在一级Selector下设置二级Selector，选择爬取字段，然后爬取。

　　对于文章，一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等，然后我们会从关卡Selector中选择我们想要的元素，比如标题、作者、阅读次数。

　　下面我们来拆解一下设置primary和secondary Selector的工作流程：

　　（1)单击添加新选择器以创建一级选择器。

　　然后按照以下步骤操作：

　　输入id：id代表你抓取的整个范围，比如这里是文章，我们可以命名为wuxiaoboarticles；

　　Select Type：type代表你抓取的部分的类型，比如element/text/link，因为这是整个文章元素范围的选择，所以我们需要先用Element来选择整个（如果这个页面需要滑动加载更多More，然后选择Element Scroll Down）；

　　Check Multiple：勾选 Multiple 前面的小方框，因为要选择多个元素而不是单个元素。我们检查的时候，爬虫插件会帮我们识别多篇同类型的文章文章；

　　保留设置：其余未提及的部分保留默认设置。

　　（2)点击select选择范围，按照以下步骤操作：

　　选择范围：用鼠标选择你要爬取的数据范围，绿色是要选择的区域，鼠标点击后区域变成红色，这个区域就被选中了；

　　多选：不要只选一个，选择以下，否则只会爬出一行数据；

　　完成选择：记得点击完成选择；

　　保存：单击保存选择器。

　　（3)设置好这个一级Selector后，点击进入设置二级Selector，步骤如下：

　　新建选择器：点击添加新选择器；

　　输入id：id代表你抓的是哪个字段，这样就可以取字段的英文了。比如我要选择“作者”，我就写“作者”；

　　选择类型：选择文本，因为你要抓取的是文本；

　　不要勾选 Multiple：不要勾选 Multiple 前面的小方框，因为我们这里要抓取的是单个元素；

　　保留设置：其余未提及的部分保留默认设置。

　　（4)点击选择，然后点击要爬取的字段，按照以下步骤操作：

　　选择字段：这里要爬取的字段为单个字段，可以通过鼠标点击字段进行选择。比如你想抓取标题，用鼠标点击某篇文章的标题。当字段的区域变成红色时，它被选中

　　完成选择：记得点击完成选择；

　　保存：单击保存选择器。

　　（5)重复以上操作，直到选择好要攀登的场地。

　　4、爬取数据

　　（1) 之后只需要设置好所有的Selector就可以开始爬取数据了：

　　点击Scrape，然后点击Start Scraping，弹出一个小窗口，爬虫就开始工作了。您将获得收录您想要的所有数据的列表。

　　（2)如果你想对这些数据进行排序，比如按阅读、喜欢、作者等排序，让数据更清晰，那么你可以点击Export Data as CSV并导入到Excel表格中。

　　(3)导入Excel表格后，可以过滤数据。

　　插件下载地址：

0

2021-10-22

网页文章自动采集

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网页文章自动采集(网页爬虫WebScraper使用教程、解压你在本页下载的)

0 个评论

发起人

AI时代内容工厂

网页文章自动采集(网页爬虫WebScraper使用教程、解压你在本页下载的)

0 个评论

发起人

相关问题