java爬虫抓取网页数据(内容简明扼要能使你眼前一亮，通过这篇文章的详细介绍)

优采云发布时间: 2022-03-16 12:24

　　这篇文章文章教你如何使用JAVA编写爬虫。内容简洁易懂，一定会让你眼前一亮。通过这次对文章的详细介绍，希望你能有所收获。

　　这篇文章文章其实是我很久以前写的，所以这次重新整理一下。很多朋友可能没有尝试过用Java写爬虫。可能是因为这方面的资料比较少，也可能是用Python写爬虫太方便了。

　　基本概念

　　jsoupi 是一个用于处理实际 HTML 的 Java 库。它提供了一个非常方便的 API，用于提取和操作数据，使用 DOM、CSS 和类似 jquery 的最佳方法。

　　以上是jsoup的官方解释，意思是jsoup是一个Java HTML解析器，可以直接解析一个URL地址和HTML文本内容。它提供了一个非常省力的 API，用于通过 DOM、CSS 和类似 jQuery 的操作方法获取和操作数据。

　　一般来说，它可以帮助我们解析HTML页面，抓取HTML中的内容。

　　开始写代码

　　我们的目标是抓取菜鸟笔记上的信息（文章标题和链接）

　　public static void main(String[] args) { try { //下面这行代码是连接我们的目标站点，并且get到他的静态HTML代码 Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get(); //我们把获取到的document打印一下，看看里面到底是啥？ System.out.println(document); } catch (IOException e) { e.printStackTrace(); } }

　　看看我们代码运行的结果：

　　你会发现我们通过这句话获得了网站《菜鸟笔记》的HTML源码

　　我们来分析一下这串html源码

　　发现这两个正是我们要获取的数据，我们继续爬取

<p>public static void main(String[] args) { try { Document document=Jsoup.connect("http://www.runoob.com/w3cnote").get(); //底下一行代码是我们进一步抓取到具体的HTML模块，div表示标签， //后面的post-intro表示的是div的class //由于div.post-intro这个标签有多个(每个标题有一个)，所以我们先获取到它的所有 Elements elements=document.select("div.post-intro"); //我们来遍历一下，因为div.post-intro有很多个 for(int i=0;i

0

2022-03-16

java爬虫抓取网页数据

0 个评论

要回复文章请先登录或注册

AI时代内容工厂

java爬虫抓取网页数据(内容简明扼要能使你眼前一亮，通过这篇文章的详细介绍)

0 个评论

发起人

AI时代内容工厂

java爬虫抓取网页数据(内容简明扼要能使你眼前一亮，通过这篇文章的详细介绍)

0 个评论

发起人

相关问题