规则采集文章软件(4.4WebScraper数据采集工具(055.1)(组图))

优采云 发布时间: 2022-02-03 09:04

  规则采集文章软件(4.4WebScraper数据采集工具(055.1)(组图))

  01实景解说

  我是一名计算机视觉*敏*感*词*,我的研究方向是“物体检测”。在详细阅读相关文献之前,需要先了解一下这个领域的发展历史和各个时期的代表性文献。

  02

  手头的问题

  如何找到这些相关文件?

  03

  明确的目标

  我希望找到尽可能多的与当前研究领域相关的文献。

  04

  工具准备

  4.1 个字段相关的 关键词 表:对象检测、对象检测等。

  4.2 搜索引擎:谷歌、百度、必应等。

  4.3 目标页面列表(数据来源):Google Scholar、Baidu Scholar、CNKI等。

  4.4 网络爬虫数据采集工具。

  05

  5.1 确定使用哪个搜索引擎

  谷歌浏览器(PS:需要合理使用),从“谷歌学术”中搜索我们想要的学术文献。如图1所示。

  

  图1

  5.2 确定用于搜索的关键词

  我们希望目标页面收录词 Object Detection,总共有 484,000 个匹配项。如图2所示。

  

  图 2

  5.3 识别采集的数据项

  我们的目的是什么?

  我们想知道某个研究领域的发展历史,那么有3个参考指标(文献名、论文引用、相关文献)(当然还有其他的判别指标)。

  因此,这次的数据有“论文标题”、“论文引用次数”、“相关文献”三项。如图 3 所示。

  

  图 3

  5.4 打开 Web Scraper 并创建一个新项目

  点击右侧的三个点 -> 更多工具 -> 开发者工具。如图 4 所示。

  

  图 4

  单击工具栏上的三个点,将工具栏调整到浏览器底部。如图 5 所示。

  

  图 5

  单击网络抓取工具。如图 6 所示。

  

  图 6

  单击创建新站点地图以通过创建站点地图创建新项目。如图 7 所示。

  

  图 7

  填写 Sitemap 名称和 Start URL,填写完成后点击 Create Sitemap。如图 8 所示。

  

  图 8

  对于本文,我们在搜索结果的第 1 页上采集数据。如图 9 所示。

  

  图 9

  我们为采集的每个数据项命名:title(论文名称)、cited_num(论文引用次数)、related_articles(相关文献)。

  5.5 设置数据抓取规则

  单击您刚刚创建的项目。如图 10 所示。

  

  图 10

  进入项目后,点击添加新选择器。如图 11 所示。

  

  图 11

  进入具体规则设置界面,需要填写id、Type、Selector、Parent Selecto、是否勾选Multiple这五项。设置好后点击保存选择器。如图 12 所示。

  

  图 12

  首先,让我们从数据项 采集 标题(文档名称)开始。单击您刚刚命名的 id。如图 13 所示。

  

  图 13

  输入“新节点”并再次单击添加新选择器。如图 14 所示。

  

  图 14

  与上述类似,分别设置以下规则。如图 15 所示。

  

  图 15

  单击元素预览以查看数据 采集 是否在正确的位置。如图 16 所示。

  

  图 16

  点击数据预览,目的是预览数据,确保采集的数据是我们想要的。如图 17 所示。

  

  图 17

  点击Data preview后我们看到的数据内容,也就是我们采集得到的最终数据是这样的。如图 18 所示。

  

  图 18

  接下来,我们采集第二个数据项--cited_num(文档被引用的次数)

  单击“当前节点”中的添加新选择器以创建新的 采集 规则。如图 19 所示。

  

  图 19

  和上面类似,设置对应的采集规则。如图 20 所示。

  

  图 20

  单击元素预览。如图 21 所示。

  

  图 21

  单击数据预览。如图 22 所示。

  

  图 22

  验证我们的预览数据和网页数据是一一对应的。如图 23 所示。

  

  图 23

  最后,采集related_articles(与本文关联的文章)数据项设置了相应的规则。如图 24 所示。

  

  图 24

  单击元素预览。如图 25 所示。

  

  图 25

  单击数据预览。如图 26 所示。

  

  图 26

  5.6 开始采集数据

  点击项目名称后,选择Scrape。如图 27 所示。

  

  图 27

  请求间隔和页面加载延迟是默认的,单击开始抓取。如图 28 所示。

  

  图 28

  单击开始抓取后,将重新打开一个网页。此时程序正在处理采集数据。采集结束后,窗口会自动关闭。

  采集完成后会弹出提示,如图29。

  

  图 29

  5.7 导出数据

  单击项目名称并选择将数据导出为 CSV。如图 30 所示。

  

  图 30

  然后会出现如下界面,点击立即下载!如图 31 所示。

  

  图 31

  点击下载后,可以使用“双击打开”或“在文件夹中显示”。如图 32 所示。

  

  图 32

  我们可以看到这个文件就是我们采集收到的数据。如图 33 所示。

  

  图 33

  导出文件的名称是 object_detection_project.csv,与我们构建项目时的名称相同。如图 34 所示。

  

  图 34

  5.8 简单的数据清洗

  由于 Web Scraper 不会按照指定的顺序获取数据,因此顺序会有偏差。我们可以根据 web-scraper-order 对其进行排序。如图 35 所示。

  

  图 35

  至此,我们已经成功(一半)爬取了Google Scholar搜索结果首页上Object Detection关键词的相关信息。

  但是在验证我们的采集数据和页面上的数据一致的时候,我们发现了一个问题:

  

  问题 1

  quoted_num 部分获取人的姓名,而不是相应的引用次数。如图 36 所示。

  问题2

  related_articles 部分还获取人名,而不是相应的文本和链接。如图 36 所示。

  

  图 36

  另外,我也想抓取文献的具体下载地址,然后直接访问地址就可以下载文献了。

  以上“两题+抢文献下载地址”将在下一篇文章文章中进行分析。

  文章具体操作请看下方视频:

  如果文章对你帮助不大,就像是对我最大的支持,下期见,

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线