网站内容抓取工具(WebScraper安装过程下载好GoogleChrome浏览器(组图) )

优采云发布时间: 2021-09-02 01:11

　　网站内容抓取工具(WebScraper安装过程下载好GoogleChrome浏览器(组图)

)

　　Web Scraper 是一款面向普通用户（无需专业 IT 技术）的免费爬虫工具，通过鼠标和简单的配置，您可以轻松获取您想要的数据。例如知乎答案列表、微博热点、微博评论、电商网站产品信息、博客文章list等，这一切只需要下载谷歌浏览器，安装网页抓取插件即可满足点那苍那超级优采云的需求。

　　安装过程

　　下载谷歌Chrome浏览器、webscraper安装包链接：密码：b9ch

　　1、在线访问网络爬虫插件并点击“添加到 CHROME”。

　　2、然后在弹出的框中点击“添加扩展”

　　3、安装完成后，顶部工具栏会显示 Web Scraper 图标。

　　本地安装方式

　　1、打开Chrome，在地址栏输入chrome://extensions/，进入扩展管理界面，然后将下载的扩展Web-Scraper_v0.3.7.crx拖到这个页面，单击“添加到扩展”以完成安装。如图：

　　2、安装完成后，顶部工具栏会显示 Web Scraper 图标。

　　第一次接触网络爬虫

　　打开网页爬虫

　　开发者可以路过看看后面

　　windows系统下可以使用快捷键F12，部分笔记本机型需要按Fn+F12；

　　Mac系统下可以使用快捷键command+option+i；

　　也可以直接在Chrome界面操作，点击设置—>更多工具—>开发者工具

　　打开后的效果如下，绿框部分是开发者工具的完整界面，红框部分是Web Scraper区域，是我们后面要操作的部分。

　　注意：如果在浏览器右侧区域打开开发者工具，需要将开发者工具的位置调整到浏览器底部。

　　原理及功能说明

　　数据爬取的思路大致可以概括如下：

　　1、通过一个或多个入口地址获取初始数据。比如文章列表页面，或者有一定规则的页面，比如带分页的列表页面；

　　2、根据入口页面的一些信息，比如链接点，进入下一页获取必要的信息；

　　3、根据上一层的链接继续下一层，获取必要的信息（这一步可以无限循环）；

　　原理大致相同。接下来，让我们正式认识一下Web Scraper工具。来吧，打开开发者工具，点击Web Scraper标签，看到分为三部分：

　　新建站点地图：首先了解站点地图，字面意思是网站Map，这里可以理解为入口地址，可以理解为对应的网站，对应一个需求，假设你想得到一个关于知乎回答，创建一个站点地图，并把这个问题的地址设置为站点地图的起始地址，然后点击“创建站点地图”来创建站点地图。

　　站点地图：站点地图的集合。所有创建的站点地图都会显示在这里，可以在此处输入站点地图进行修改、数据抓取等操作。

　　站点地图：进入某个站点地图，可以进行一系列的操作，如下图：

　　在红框中添加新的选择器是必不可少的一步。什么是选择器，字面意思是：选择器，一个选择器对应网页的一部分，也就是收录我们要采集的数据的部分。

　　我需要解释一下。一个站点地图下可以有多个选择器，每个选择器可以收录子选择器。一个选择器可以只对应一个标题，也可以对应整个区域。该区域可能收录标题、副标题和作者信息、内容等。

　　选择器：查看所有选择器。

　　选择器图：查看当前站点地图的拓扑*敏*感*词*，根节点是什么，几个选择器，选择器下收录的子选择器。

　　编辑元数据：您可以修改站点地图信息、标题和起始地址。

　　Scrape：开始数据抓取。

　　Export data as CSV：以CSV格式导出捕获的数据。

　　至此，有一个简单的了解就足够了。来自实践的真正知识只有在特定的操作案例中才能令人信服。下面以知乎问题为例说明具体用法。

　　获取知乎questions 的所有答案

　　知乎的特点是只有向下滚动页面才会加载下一个答案

　　1、首先在Chrome中打开此链接，链接地址为：，并调出开发者工具，定位到Web Scraper标签栏；

　　2、新建站点地图，填写站点地图名称和起始网址；

　　3、下一步，开始添加选择器，点击添加新选择器；

　　4、我们先来分析一下知乎问题的结构。如图，一个问题由多个这样的区域组成，一个区域就是一个答案。这个回答区包括昵称、批准号、回答内容和发布时间等。红色框起来的部分就是我们要抓取的内容。所以我们抓取数据的逻辑是这样的：从入口页面进入，获取当前页面已经加载的答案，找到一个答案区域，提取里面的昵称、审批号、答案内容，然后执行反过来。区域获取完成后，模拟鼠标向下滚动，加载后续部分，循环直到全部加载完成；

　　5、内容结构拓扑图如下，_root的根节点收录若干个回答区域，每个区域收录昵称、审批号、回答内容；

　　6、根据上面的拓扑图，开始创建选择器，选择器id填写为answer（请填写），Type选择Element向下滚动。说明：Element是针对这种大面积的区域，这个区域也收录子元素，答案区域对应Element，因为我们需要从这个区域获取我们需要的数据，Element向下滚动表示这个区域是向下使用。滚动方式可以加载更多，专为这种下拉加载而设计。

　　7、接下来，点击选择，然后将鼠标移到页面上，绿框包围答案区域时单击鼠标，然后移动到下一个答案，绿框包围时也单击鼠标一个回答区。这时，除了这两个答案，所有的答案区域都变成了红色的方框，然后点击“完成选择！”。最后别忘了选择Multiple，稍后保存；

　　8、下一步，点击红色区域进入刚刚创建的答案选择器，并创建子选择器；

　　9、创建昵称选择器，设置id为name，Type为Text，Select选择昵称部分。如果您没有经验，第一次可能不会选择正确的名称。如果您发现错误，您可以对其进行调整并保存。 ;

　　10、创建一个批准号选择器；

　　11、创建一个内容选择器。由于内容格式化并且很长，所以有一个技巧。选择以下更方便；

　　12、执行刮取操作。由于内容较多，可能需要几分钟。如果是测试用的，可以找一个答案少的问题来测试。

0

2021-09-02

网站内容抓取工具

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

网站内容抓取工具(WebScraper安装过程下载好GoogleChrome浏览器(组图) )

0 个评论

发起人

AI时代内容工厂

网站内容抓取工具(WebScraper安装过程下载好GoogleChrome浏览器(组图) )

0 个评论

发起人

相关问题