java从网页抓取数据(AlexR关于一个的一些小知识,你知道吗?)
优采云 发布时间: 2021-10-02 05:25java从网页抓取数据(AlexR关于一个的一些小知识,你知道吗?)
正如@Alex R 指出的那样,您将需要一个网络爬虫库。
他推荐的 JSoup 相当健壮,至少以我的经验,它经常用于 Java 中的这个任务。
首先需要构造一个文档来获取页面,例如:
int localID = 25022; //your player's ID.
Document doc = Jsoup.connect("http://www.chess.org.il/Players/Player.aspx?Id=" + localID).get();
从这个文档对象中,你可以得到很多信息,比如你请求的 FIDE ID。不幸的是,您链接的网页非常容易抓取,您基本上需要浏览页面上的每个链接才能找到相关链接,例如:
Elements fidelinks = doc.select("a[href*=fide.com]");
这个 Elements 对象应该为您提供指向所有链接的链接列表,这些链接链接到收录文本的任何内容,但您可能只希望出现第一个链接,例如:
从那以后,我不想为您编写所有代码,但希望这个答案可以作为一个好的起点!
可以通过调用Element对象上的方法单独获取ID,但也可以通过调用本身获取链接
可以用来获取另一个值的css选择器是 div#main-col table.contentpaneopen tbody tr td table tbody tr td table tbody tr:nth-of-type(4) td table tbody tr td:first- Of-type,至少在标准css中,它会得到一个特定的std分数,所以它也应该和jsoup一起使用。