网页表格抓取(网页上只有一个表格的数据如何获取?(一))

优采云 发布时间: 2022-01-05 21:22

  网页表格抓取(网页上只有一个表格的数据如何获取?(一))

  首先下载jsoup的jar包,自己在网上搜索这个,有很多,然后导入到程序中方便使用。

  接下来先获取你想要获取的网页内容,Document doc = Jsoup.connect(url).timeout(5000).get();

  这里的网址就是你要爬取的网址。timeout(5000) 设置你抓取网页的最长时间,超过时间后不再尝试。一般网站不需要设置,只需要Document doc = Jsoup.connect(url).get(); 获取网页内容并转换为文档格式。

  下一步是找到您想要获取的数据。这里我们主要讲一下如何获取网页表格中的数据。其他类似。

  你需要了解你想要获取的网页的html标签的结构,按F12进入开发者模式,寻找你想要获取的数据信息。

  如果网页上只有一张表格,很简单: Elements elements1 = doc.select("table").select("tr"); 这行代码获取网页上表格中的行,返回的元素是表格有多少行。如果是多个表,那么select()就是表的标签,比如它的class和其他属性,来决定你选择哪个表。

  for (int i = 0; i <elements1.size()-1; i++) {

  //获取每一行的列

  元素 tds = 元素1.get(i).select("td");

  {

  //处理每一行你需要的一些列

  //获取第i行第j列的值

  字符串 oldClose = tds.get(j).text()

  //接下来,继续你的操作

  ………………

  }

  }

0 个评论

要回复文章请先登录注册


官方客服QQ群

微信人工客服

QQ人工客服


线