网页表格抓取(我正在尝试从上获取与梦幻足球运动员薪水相关的数据 )

优采云 发布时间: 2022-04-04 20:04

  网页表格抓取(我正在尝试从上获取与梦幻足球运动员薪水相关的数据

)

  我正在尝试从 . 可以在此处找到我尝试采集数据的示例网页:. scsv 格式的数据可以方便地在每个页面上的 html“pre”标签下获得。我首先使用一个 for 循环来生成我想要从中刮取数据的所有 url,但随后我努力将这些页面中的所有数据转换为我想要的格式,一个收录所有刮取数据的最终数据表。我使用第二个 for 循环遍历所有 url,在每个页面上使用 read_html() 函数,然后使用 html_nodes('pre')%>%html_text() 提取感兴趣的数据。问题是,由于我的代码目前运行良好,这只是为收录整个 scsv 的每个页面创建一个大对象,而不是作为收录单个列(周、年、gid、名称、pos、团队、h/a、opt、dk 点数、dk 工资)。相反,我想要一个收录我要抓取的所有页面的这些单独列的数据表,但对网络抓取没有太多经验,也不知道如何解决这个问题。任何帮助将不胜感激。这是我到目前为止编写的代码:

<p>library(purrr)

library(rvest)

library(data.table)

library(stringr)

library(tidyr)

#Declare variables and empty data tables

path1

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线