一个函数抓取代谢组学权威数据库HMDB的所有表格数据

优采云发布时间: 2022-07-22 08:31

　　爬虫是都不陌生的一个概念，比如百度、谷歌都有自己的爬虫工具去抓取网站、分析、索引，方便我们的查询使用。

　　在我们浏览网站、查询信息时，如果想做一些批量的处理，也可以去分析网站的结构、抓取网页、提取信息，然后就完成了一个小爬虫的写作。

　　网页爬虫需要我们了解URL的结构、HTML语法特征和结构，以及使用合适的抓取、解析工具。我们这篇先看一个简单的处理，给一个直观的感受：一个函数抓取网页的表格。以后再慢慢解析如何更加定制的获取信息。

　　HMDB (人类代谢组数据库)收录了很多代谢组的数据，用于代谢组学、临床化学、生物标志物开啊和基本教育等。数据联通化学、临床、分子生物学3个层次，共有114,099个代谢物。

　　网站提供了多种浏览和查询功能，可以关注不同的疾病、通路、BMI、年龄、性别相关代谢组学。

　　下图展示的是BMI相关代谢物的数据。

　　如果我们想把这个表格下载下来，一个办法是一页页的拷贝，大约拷贝十几次，工作量不算太大，但有些无趣。另外一个办法就是这次要说的抓取网页。

　　R的XML包中有个函数readHTMLTable专用于识别HTML中的表格 (table标签)，从而提取元素（）。具体使用如下：

# Load the package required to read website library(XML) # wegpage address url

0

2022-07-22

excel抓取多页网页数据

0 个评论

要回复文章请先登录或注册