java爬虫抓取网页数据(内容简明扼要能使你眼前一亮,通过这篇文章的详细介绍)
优采云 发布时间: 2022-03-16 12:24java爬虫抓取网页数据(内容简明扼要能使你眼前一亮,通过这篇文章的详细介绍)
这篇文章文章教你如何使用JAVA编写爬虫。内容简洁易懂,一定会让你眼前一亮。通过这次对文章的详细介绍,希望你能有所收获。
这篇文章文章其实是我很久以前写的,所以这次重新整理一下。很多朋友可能没有尝试过用Java写爬虫。可能是因为这方面的资料比较少,也可能是用Python写爬虫太方便了。
基本概念
jsoupi 是一个用于处理实际 HTML 的 Java 库。它提供了一个非常方便的 API,用于提取和操作数据,使用 DOM、CSS 和类似 jquery 的最佳方法。
以上是jsoup的官方解释,意思是jsoup是一个Java HTML解析器,可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的 API,用于通过 DOM、CSS 和类似 jQuery 的操作方法获取和操作数据。
一般来说,它可以帮助我们解析HTML页面,抓取HTML中的内容。
开始写代码
我们的目标是抓取菜鸟笔记上的信息(文章标题和链接)
public static void main(String[] args) { try { //下面这行代码是连接我们的目标站点,并且get到他的静态HTML代码 Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get(); //我们把获取到的document打印一下,看看里面到底是啥? System.out.println(document); } catch (IOException e) { e.printStackTrace(); } }
看看我们代码运行的结果:
你会发现我们通过这句话获得了网站《菜鸟笔记》的HTML源码
我们来分析一下这串html源码
发现这两个正是我们要获取的数据,我们继续爬取
<p>public static void main(String[] args) { try { Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get(); //底下一行代码是我们进一步抓取到具体的HTML模块,div表示标签, //后面的post-intro表示的是div的class //由于div.post-intro这个标签有多个(每个标题有一个),所以我们先获取到它的所有 Elements elements=document.select("div.post-intro"); //我们来遍历一下,因为div.post-intro有很多个 for(int i=0;i