网页文章自动采集(网页爬虫WebScraper使用教程、解压你在本页下载的)
优采云 发布时间: 2021-10-22 17:07网页文章自动采集(网页爬虫WebScraper使用教程、解压你在本页下载的)
网络爬虫概述
网页的爬虫工具基本都是自动脚本的风格,用于一键采集各种关键信息。本次推出的Web Scraper是谷歌浏览器的三方插件,帮助开发者了解主要网站 bot中需要的信息可以自动抓取,但需要注意的是信息采集需要提前设置,需要精准定位,这样自动爬虫工具的作用才会最大化。
网络爬虫 Web Scraper 软件功能 网络爬虫 网络爬虫教程
1、将您在本页下载的Web Scraper插件解压,拖入扩展页面。
2、插件安装后,其按钮标记会出现在浏览器中。用户可以先在设置页面中设置插件的存储设置和存储类型功能。
3、用户可以使用Web Scraper插件进行页面抓取,操作方法如下:
1),打开你要爬取的网页。
首先,您需要使用该插件来提取网页数据。您需要在开发者工具模式下使用它。使用快捷键Ctrl+Shift+I/F12或者右键,选择Inspect,就可以在开发者工具下看到WebScraper Tab了。. 如下所示:
2),创建一个新的站点地图。单击创建新站点地图,其中有两个选项。导入站点地图是导入现成站点地图的指南。我们没有现成的,所以我们一般不选择这个,只选择创建站点地图。
然后执行这两个操作:
(1)Sitemap Name:代表你的Sitemap适用于哪个网页,所以你可以根据自己的名字给网页起名字,但是需要用英文字母。比如我是从今天的头条中抓取数据,那我就用今日头条来命名
(2)Sitemap URL:将网页链接复制到Star URL栏。例如,在图片中,我将“吴晓波频道”的首页链接复制到该栏,然后点击下面的创建站点地图创建一个新的站点地图。
3)、设置本站点地图
整个Web Scraper的爬取逻辑如下:设置一级Selector,选择爬取范围;在一级Selector下设置二级Selector,选择爬取字段,然后爬取。
对于文章,一级Selector意味着你要圈出这块文章的元素。这个元素可能包括标题、作者、发布时间、评论数等,然后我们会从关卡Selector中选择我们想要的元素,比如标题、作者、阅读次数。
下面我们来拆解一下设置primary和secondary Selector的工作流程:
(1)单击添加新选择器以创建一级选择器。
然后按照以下步骤操作:
输入id:id代表你抓取的整个范围,比如这里是文章,我们可以命名为wuxiaoboarticles;
Select Type:type代表你抓取的部分的类型,比如element/text/link,因为这是整个文章元素范围的选择,所以我们需要先用Element来选择整个(如果这个页面需要滑动加载更多More,然后选择Element Scroll Down);
Check Multiple:勾选 Multiple 前面的小方框,因为要选择多个元素而不是单个元素。我们检查的时候,爬虫插件会帮我们识别多篇同类型的文章文章;
保留设置:其余未提及的部分保留默认设置。
(2)点击select选择范围,按照以下步骤操作:
选择范围:用鼠标选择你要爬取的数据范围,绿色是要选择的区域,鼠标点击后区域变成红色,这个区域就被选中了;
多选:不要只选一个,选择以下,否则只会爬出一行数据;
完成选择:记得点击完成选择;
保存:单击保存选择器。
(3)设置好这个一级Selector后,点击进入设置二级Selector,步骤如下:
新建选择器:点击添加新选择器;
输入id:id代表你抓的是哪个字段,这样就可以取字段的英文了。比如我要选择“作者”,我就写“作者”;
选择类型:选择文本,因为你要抓取的是文本;
不要勾选 Multiple:不要勾选 Multiple 前面的小方框,因为我们这里要抓取的是单个元素;
保留设置:其余未提及的部分保留默认设置。
(4)点击选择,然后点击要爬取的字段,按照以下步骤操作:
选择字段:这里要爬取的字段为单个字段,可以通过鼠标点击字段进行选择。比如你想抓取标题,用鼠标点击某篇文章的标题。当字段的区域变成红色时,它被选中
完成选择:记得点击完成选择;
保存:单击保存选择器。
(5)重复以上操作,直到选择好要攀登的场地。
4、 爬取数据
(1) 之后只需要设置好所有的Selector就可以开始爬取数据了:
点击Scrape,然后点击Start Scraping,弹出一个小窗口,爬虫就开始工作了。您将获得收录您想要的所有数据的列表。
(2)如果你想对这些数据进行排序,比如按阅读、喜欢、作者等排序,让数据更清晰,那么你可以点击Export Data as CSV并导入到Excel表格中。
(3)导入Excel表格后,可以过滤数据。
插件下载地址: