webscraper插件到底要怎么用？爬取数据的基本流程

优采云发布时间: 2021-05-05 23:20

　　在工作中，几乎每个职位都涉及数据采集任务。采集所有本地装饰公司的列表，采集某个APP的所有注释，采集与互联网上**相关的所有文章，批量下载某个网站的指定文件...

　　我不知道如何编程，也不了解爬网技术。我遇到过这种工作。我要么强制CTRL + C，CTRL + V，要么大笑，并要求技术人员帮助我抓取数据。直到我遇到了Web刮板的这种工件，才需要编程经验。只需完成几个简单的设置步骤，即可在几分钟内快速采集成千上万的数据，并且效率非常高。

　　Web scraper是Google采集器插件。它非常易于使用，可以在30分钟内完全掌握。网页抓取工具插件将抓取数据以生成供我们使用的excel工作表。

　　那么您如何使用此插件？

　　抓取数据的基本过程

　　第一步：下载并安装网络抓取插件。

　　下载链接：链接：密码：t7bm

　　安装方法：请参考百度经验文章

　　第二步：创建一个新的数据爬网站点。

　　首先按F12键（或单击鼠标右键进行检查）以调出控制台，单击“ Web Scraper”以切换到采集器插件功能，然后单击“创建新的站点地图”以进入新的数据搜寻站点创建页面。

　　站点地图名称可以自定义，但必须为英文。起始网址是我们要抓取的网站 URL。在这里，我们过去一周在上搜寻了上海相同的城市活动，将以下链接复制到开始url输入框中，然后单击“创建站点地图”以确认创建。

　　第3步：选择要提取的页面元素

　　成功创建上一步后，页面将跳至以下界面，然后单击“添加新选择器”以创建新选择器。

　　以提取页面的活动标题为例，将ID设置为“ title”（您可以在此处对其进行自定义，它将成为excel中的标题），类型为“ text”。

　　选择器是指需要在页面中提取的数据区域。单击选择，在网页上滑动鼠标，将出现绿色区域，表明我们可以在这些区域中选择数据。

　　选择一个事件标题，该区域将被红色边框包围，然后继续选择下一个事件标题。当选择两个相同的面积，该插件将自动选择网页上的其他类似的元件。点击“完成选择！”确认选择。

　　我们可以单击“元素预览”以查看页面上所有选定的区域，然后单击“数据预览”以预览采集器将获取的数据。

　　注意：由于我们要选择此页面上的所有事件标题，因此需要选中“多个”复选框。其余内容可以保留为默认值，请单击“保存选择器”以保存该选择器。

　　这时，我们选择了需要提取的页面元素，如下图所示。

　　第4步：开始抓取数据

　　点击抓取进入数据抓取开始页面。

　　设置请求间隔和页面加载延迟时间，然后单击“开始抓取”以开始抓取数据。此处的时间间隔主要是为了防止采集器因过于频繁的操作而被阻止并且无法正常爬行。正常的网站默认时间间隔很好，某些网站可能需要设置更大的时间间隔。

　　启动后，将打开目标URL的窗口，并且爬网程序将根据设置的提取规则逐一爬网。抓取完成后，该窗口将自动关闭。

　　第5步：下载数据

　　单击“将数据导出为CSV”以跳至excel数据下载页面，然后单击“立即下载”进行下载。

　　以上五个步骤是使用Web爬网程序爬网数据的整个过程和操作。无论数据多么复杂，都可以根据这样的过程和操作对相应的数据进行爬网。

　　高级操作

　　1。如何一次抓取一组数据？

　　我们刚刚抓取了活动的主题。如果要同时抓取主题和活动时间，该怎么办？

　　从上图可以看到数据的结构。事件主题和事件时间同时收录在最外面的框中。因此，在设置选择器时，首先创建一个较大的选择器，以使事件主题与活动内容同时收录在内。

　　请注意，此处的类型应设置为“元素”。保存后，单击刚刚创建的内容（下图中红色框的位置）以进入子页面。

　　然后在此页面上创建标题选择器和时间选择器。类型均为文本。现在页面的可选区域仅限于列表区域，因此您只需单击一次事件标题并确保将其选中。不要选中“多个”。

　　只有通过创建收录活动主题和活动时间的元素选择器，爬网的数据才会以一一对应的方式呈现。

　　2。如何一次抓取多个页面？

　　根据分页的不同形式，有不同的解决方案。

　　1）在固定分页的情况下

　　可以注意到，豆瓣的同一个城市活动页面已分页，每页显示10条数据。因此，如果我们要抓取数据的前10页，该怎么办？

　　如果仔细观察，会发现第一页的URL和第二页的URL之间存在差异。

　　第一页：

　　第二页：

　　start =以下数字是相差10的算术序列。

　　然后，当我们设置数据爬网站点时，我们使用[0-100：10]而不是特定的数字来表示数据爬网的页面间隔。也就是说：[0-100：10]

　　如果URL的算术差为1，例如知乎问题的URL：

　　第一页：

　　第二页：

　　省略了冒号和后面的算术差，仅写入页码间隔。例如[1-10]

　　表示知乎主题的第一页至第十页。

　　处理此类数据的关键是观察不同页面的URL的变化，然后将页码间隔写入URL。

　　2）通过滚动鼠标自动加载

　　当前，许多网站都采用了滚动到底部后自动加载数据的方法，并且它们的URL并未更改。例如知乎实时首页的数据加载方法。

　　这时，我们需要在创建元素选择器时将“类型”设置为“元素向下滚动”。这样，爬网程序在工作时将自动执行滚动操作，并不断进行爬网直到没有数据要加载。

　　3）点击页面底部的“加载更多”按钮

　　设置外部元素元素时，将“类型”设置为“元素单击”，然后单击“单击选择器”的“选择”按钮以选择页面上的“加载更多”按钮或图标。

　　为了使页面连续加载，请将“点击类型”设置为“点击更多”，然后单击多次。

　　下一步，设置条件以停止单击。当此区域的文本内容或HTML结构或显示样式更改时，不再单击。

　　例如，当加载完成时，“加载更多”按钮的文本变为“已加载”，然后选择“唯一文本”；如果在加载结束时该按钮显示为灰色，请选择“唯一CSS选择器”。

　　3，如何批量抓取和下载图片？

　　将“类型”设置为image，该插件将抓取所有图像的链接。有两种下载图像的方法，一种是直接选中“下载图像”，以便爬网程序在爬网时将自动下载它。或在抓取所有图像链接之后，使用批处理下载工具直接下载。

　　4，如何抓取Web链接？

　　将“类型”设置为“链接”，爬网程序将爬网到元素上的超链接。

　　如图所示：当“类型”是文本时，抓取的数据是立陶宛语Anzelika Cholina舞蹈剧院的Anna Karenina。

　　当“类型”为“链接”时，抓取的数据为：即，单击指向该页面的链接，该页面跳到下图中红色框中的内容。

　　例如，当您需要抓取的链接是下载文件的链接时，该链接类似于下图中的“公告下载”按钮。您可以将“类型”设置为“弹出链接”，以便在抓取数据的过程中自动下载文件。

　　5，如何抓取第二级页面或第三级页面的内容？

　　首先在根目录中创建一个选择器。该选择器选择的内容是可以单击到辅助页面的区域。如果该区域中有超链接，则将“类型”设置为“链接”，否则设置为“元素单击”；在此选择器中创建一个选择器，然后选择需要爬网的区域。可以逐级嵌套。

　　如何判断区域中是否有超链接？将鼠标放在该区域中，右键单击，如果有“在...中打开链接”选项，则该区域中有一个超链接，并将“类型”设置为“链接”。

　　通过上述设置，我们可以使用Google插件抓取80％的网站数据，获取本地excel文件，然后处理和分析数据。

　　上述技能不仅可以在工作中使用，而且可以在查询生活中的信息时使用。

　　很多时候网站的设计都有某些问题，这使我们很难获得信息。

　　例如知乎实时网页，当您单击实时详细信息然后返回时，页面将返回顶部，您需要滚动以再次加载它；

　　例如，在Interactive Bar的活动列表页面上，没有活动状态的分类。通常，您不能参加正在进行的活动，但不能将其过滤掉。

　　这时，如果您使用Web抓取工具，则可以在本地对数据进行爬网，然后根据需要快速对其进行过滤。

　　熟练掌握此插件后，真的可以提高工作效率并减少麻烦吗？

　　提高工作效率是一定的，但不一定要减少麻烦。毕竟，老板告诉我，因为我下班太早了〜woo

0

2021-05-05

自动采集数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

webscraper插件到底要怎么用？爬取数据的基本流程

0 个评论

发起人