网页表格抓取(网页上只有一个表格的数据如何获取?(一))
优采云 发布时间: 2022-01-05 21:22网页表格抓取(网页上只有一个表格的数据如何获取?(一))
首先下载jsoup的jar包,自己在网上搜索这个,有很多,然后导入到程序中方便使用。
接下来先获取你想要获取的网页内容,Document doc = Jsoup.connect(url).timeout(5000).get();
这里的网址就是你要爬取的网址。timeout(5000) 设置你抓取网页的最长时间,超过时间后不再尝试。一般网站不需要设置,只需要Document doc = Jsoup.connect(url).get(); 获取网页内容并转换为文档格式。
下一步是找到您想要获取的数据。这里我们主要讲一下如何获取网页表格中的数据。其他类似。
你需要了解你想要获取的网页的html标签的结构,按F12进入开发者模式,寻找你想要获取的数据信息。
如果网页上只有一张表格,很简单: Elements elements1 = doc.select("table").select("tr"); 这行代码获取网页上表格中的行,返回的元素是表格有多少行。如果是多个表,那么select()就是表的标签,比如它的class和其他属性,来决定你选择哪个表。
for (int i = 0; i <elements1.size()-1; i++) {
//获取每一行的列
元素 tds = 元素1.get(i).select("td");
{
//处理每一行你需要的一些列
//获取第i行第j列的值
字符串 oldClose = tds.get(j).text()
//接下来,继续你的操作
………………
}
}